Choisir une IA en mai 2026, c’est viser une cible mobile. Tous les six à huit mois, une nouvelle génération de modèles redistribue les cartes. Plutôt que de chercher la meilleure IA — question mal posée — ce baromètre montre qui domine quoi cette semaine, dans une perspective utile aux enseignants et aux chefs d’établissement.
Mis à jour chaque lundi à partir de trois sources publiques, archivé semaine par semaine, recoupé avec les contraintes de souveraineté propres au monde éducatif français.
Cette semaine — édition du 4 mai 2026
Podium hebdomadaire
- Claude Opus 4.7 (Anthropic) — toujours leader LMArena et SWE-bench (71 %, +1 pt)
- GPT-5.5 (OpenAI) — Intelligence Index 60, stable
- Gemini 3.1 Pro (Google) — leader GPQA Diamond (82 %), nouveau mode « Science » lancé jeudi 1ᵉʳ mai
Le changement de la semaine. Pas de bascule sur le podium global. L’événement notable est la sortie de Mistral Large 3.5 vendredi 1ᵉʳ mai (présenté au Mistral AI Summit à Station F) : le modèle français progresse de +25 points Elo sur LMArena (1 365), gagne 3 points sur l’Intelligence Index (55), et passe de 50 à 55 % sur SWE-bench. L’écart se réduit avec les modèles américains, et Mistral consolide sa position de seul concurrent crédible côté souveraineté. À surveiller la semaine prochaine : la preview annoncée de DeepSeek R3 (date encore floue).
Performances des modèles cette semaine
Lecture rapide : score sur les principaux benchmarks publics, hébergement et prix indicatif. Les scores sont des ordres de grandeur (toutes les sources convergent à 1 ou 2 points près).
| Modèle | LMArena (Elo) | Intelligence Index | SWE-bench | GPQA Diamond | Hébergement | Prix entrée ($/M tokens) | RGPD natif |
|---|---|---|---|---|---|---|---|
| Claude Opus 4.7 | 1 415 ↑ | 57 | 71 % ↑ | 78 % | 🇺🇸 US | 15 | ⚠️ |
| GPT-5.5 | 1 395 → | 60 → | 65 % → | 80 % → | 🇺🇸 US | 10 | ⚠️ |
| Gemini 3.1 Pro | 1 382 ↑ | 57 → | 60 % → | 82 % → | 🇺🇸 US | 7 | ⚠️ |
| Grok 4 | 1 370 → | 54 → | 58 % → | 75 % → | 🇺🇸 US | 5 | ❌ |
| Mistral Large 3.5 🆕 | 1 365 ↑↑ | 55 ↑ | 55 % ↑ | 73 % ↑ | 🇫🇷 UE | 6 | ✅ |
| DeepSeek R2 | 1 368 ↑ | 53 → | 62 % → | 73 % → | 🇨🇳 Chine | 2 | ❌ |
En gras : leader sur la colonne. 🆕 : nouveauté de la semaine. ↑ / ↑↑ / → : tendance par rapport à la semaine précédente. Lecture des symboles RGPD : ✅ conformité native (hébergement UE), ⚠️ utilisable avec précautions (anonymisation obligatoire), ❌ à proscrire pour tout traitement de données d’élèves.
Le bon modèle pour le bon usage
Aucun modèle n’est meilleur partout. Voici les recommandations par usage pédagogique courant.
| Usage pédagogique | Modèle recommandé | Alternative | Remarque |
|---|---|---|---|
| Préparer un cours, créer une progression, rédiger des fiches | Claude Opus 4.7 | GPT-5.5 | Écriture longue, structurée, ton ajustable |
| Corriger des copies, analyser un texte d’élève | Claude Opus 4.7 | Gemini 3.1 Pro | Fenêtre de contexte large, lecture fine |
| Aide aux élèves en sciences (physique, SVT, maths avancées) | Gemini 3.1 Pro | GPT-5.5 | Meilleur sur GPQA Diamond, raisonnement scientifique |
| Code et NSI | Claude Opus 4.7 | GPT-5.5 | 70 % sur SWE-bench, leader CursorBench |
| Recherche documentaire avec sources vérifiables | Gemini 3.1 Pro | Perplexity | Recherche web native, citations claires |
| Souveraineté et RGPD (données d’élèves) | Mistral Large 3 | Le Chat Pro | Hébergement européen, conformité native |
Hébergement et conformité. Claude, GPT et Gemini sont hébergés aux États-Unis. Pour traiter la moindre donnée personnelle d’élève, passer par Mistral (hébergement français) ou anonymiser systématiquement avant import.
Les benchmarks expliqués simplement
Quand on lit qu’un modèle « atteint 70 % sur SWE-bench », il faut savoir ce que ça veut dire — et ne pas dire.
LMArena — Préférences humaines, mesurées en aveugle : deux modèles répondent à la même question, des humains votent pour la meilleure réponse. Les votes sont agrégés en un score Elo, comme aux échecs. Mesure : la qualité perçue. Ne mesure pas : la justesse factuelle (un modèle qui « parle bien faux » peut bien y figurer).
Artificial Analysis Intelligence Index — Score composite combinant plusieurs benchmarks (raisonnement, code, mathématiques). Mesure : la performance générale agrégée. Limite : la composition de l’index évolue, les comparaisons d’une semaine à l’autre supposent des hypothèses méthodologiques.
MMLU (Massive Multitask Language Understanding) — 57 disciplines, du droit à la médecine, format QCM. Mesure : l’étendue des connaissances. Limite : le benchmark est presque saturé (les meilleurs modèles dépassent 90 %), peu discriminant aujourd’hui.
GPQA Diamond — Questions scientifiques très difficiles, conçues pour résister à la recherche Google. Mesure : la capacité de raisonnement scientifique de niveau doctorant. Limite : corpus restreint, biais disciplinaires.
SWE-bench — Issues GitHub réelles à résoudre par modification de code. Mesure : la programmation appliquée. Limite : langage et écosystèmes représentés inégalement, contamination possible des données d’entraînement.
Trois biais transverses à garder en tête : la saturation (un benchmark trop facile cesse de discriminer), la contamination (les modèles ont parfois vu les questions pendant l’entraînement), et les biais culturels et linguistiques (la majorité sont en anglais, sur des références américaines).
Historique des bascules
- 4 mai 2026 — Pas de bascule sur le podium global (Claude Opus 4.7, GPT-5.5, Gemini 3.1 Pro). Événement de la semaine : sortie de Mistral Large 3.5 au Mistral AI Summit du 1ᵉʳ mai → +25 pts Elo, +3 sur Intelligence Index (55), +5 sur SWE-bench (55 %). Gemini 3.1 Pro lance un mode « Science » dédié au raisonnement scientifique. DeepSeek R3 annoncé en preview pour les prochaines semaines.
- 3 mai 2026 — Première édition. Claude Opus 4.7 prend la tête de LMArena et SWE-bench (70 %). GPT-5.5 tête de l’Intelligence Index (60). Mistral Large 3 reste la référence souveraine.
Et pour l’Éducation nationale ?
Les sites tech grand public se concentrent sur les performances brutes. Pour un cadre de l’Éducation nationale, trois critères supplémentaires entrent en jeu.
Conformité RGPD et hébergement. Les modèles américains (Claude, GPT, Gemini) hébergent les données aux États-Unis. Toute donnée nominative d’élève qui leur est confiée transite hors UE. Pour rester conforme : anonymisation obligatoire avant import, ou utilisation d’un modèle européen (Mistral, qui héberge en France).
Compatibilité GAR. À ce jour, aucun de ces modèles généralistes n’est intégré au GAR académique. Pour un usage en classe avec authentification élève, il faut passer par les outils nationaux (MIA Seconde, P2IA au cycle 2) ou par un contrat individuel enseignant.
Doctrine académique. Le Cadre d’usage de l’IA en éducation publié en juin 2025 rappelle que l’IA assiste, ne se substitue pas. Pour les évaluations, l’AI Act classe l’usage en haut risque (Annexe III). La règle : signature humaine, supervision effective, information des familles.
En pratique pour un chef d’établissement. Privilégier Mistral Large 3 ou Le Chat Pro pour tout ce qui touche aux données d’élèves. Réserver les modèles US (Claude, GPT, Gemini) à la préparation pédagogique générale, sans nom ni copie identifiable. Documenter l’usage dans le règlement intérieur ou la note de rentrée.
Méthodologie
Trois sources publiques sont consultées chaque lundi pour mettre à jour le baromètre :
- LMArena — préférences humaines (score Elo)
- Artificial Analysis — Intelligence Index composite et coût par token
- LLM Stats — benchmarks bruts (MMLU, GPQA, SWE-bench, HumanEval) et tarifs API
Avant chaque mise à jour, la version précédente est archivée dans la section Historique des bascules. Aucun classement présenté ici n’est tenu pour vérité absolue : ce sont des indicateurs convergents, à interpréter avec les limites listées dans la section benchmarks.
Pour aller plus loin
Plusieurs prolongements sont à l’étude pour ce baromètre :
- une newsletter hebdomadaire Le bulletin du baromètre, envoyée chaque lundi avec l’extrait de la semaine ;
- une capsule vidéo de 90 secondes pour chaque bascule majeure (Reels, TikTok, LinkedIn) ;
- un comparateur interactif : l’utilisateur coche son usage, l’outil pointe le modèle recommandé pour la semaine en cours ;
- une page « Et l’an dernier ? » avec graphique d’évolution sur 12 mois pour donner à voir la vitesse du marché.
Si l’une ou l’autre de ces idées t’intéresse en priorité, écris-le-moi.
Sources de la semaine : LMArena (consulté le 4 mai 2026), Artificial Analysis (publication du 4 mai 2026), LLM Stats (consulté le 4 mai 2026), keynote Mistral AI Summit (Station F, 1ᵉʳ mai 2026). Documents de référence : Cadre d’usage de l’IA en éducation (juin 2025), AI Act règlement (UE) 2024/1689.