Outils & Ressources

Le baromètre des IA pour l’éducation — qui est en tête cette semaine ?

Le baromètre des IA pour l’éducation — qui est en tête cette semaine ?

Choisir une IA en mai 2026, c’est viser une cible mobile. Tous les six à huit mois, une nouvelle génération de modèles redistribue les cartes. Plutôt que de chercher la meilleure IA — question mal posée — ce baromètre montre qui domine quoi cette semaine, dans une perspective utile aux enseignants et aux chefs d’établissement.

Mis à jour chaque lundi à partir de trois sources publiques, archivé semaine par semaine, recoupé avec les contraintes de souveraineté propres au monde éducatif français.

Cette semaine — édition du 4 mai 2026

Podium hebdomadaire

  1. Claude Opus 4.7 (Anthropic) — toujours leader LMArena et SWE-bench (71 %, +1 pt)
  2. GPT-5.5 (OpenAI) — Intelligence Index 60, stable
  3. Gemini 3.1 Pro (Google) — leader GPQA Diamond (82 %), nouveau mode « Science » lancé jeudi 1ᵉʳ mai

Le changement de la semaine. Pas de bascule sur le podium global. L’événement notable est la sortie de Mistral Large 3.5 vendredi 1ᵉʳ mai (présenté au Mistral AI Summit à Station F) : le modèle français progresse de +25 points Elo sur LMArena (1 365), gagne 3 points sur l’Intelligence Index (55), et passe de 50 à 55 % sur SWE-bench. L’écart se réduit avec les modèles américains, et Mistral consolide sa position de seul concurrent crédible côté souveraineté. À surveiller la semaine prochaine : la preview annoncée de DeepSeek R3 (date encore floue).


Performances des modèles cette semaine

Lecture rapide : score sur les principaux benchmarks publics, hébergement et prix indicatif. Les scores sont des ordres de grandeur (toutes les sources convergent à 1 ou 2 points près).

Modèle LMArena (Elo) Intelligence Index SWE-bench GPQA Diamond Hébergement Prix entrée ($/M tokens) RGPD natif
Claude Opus 4.7 1 415 57 71 % 78 % 🇺🇸 US 15 ⚠️
GPT-5.5 1 395 → 60 65 % → 80 % → 🇺🇸 US 10 ⚠️
Gemini 3.1 Pro 1 382 ↑ 57 → 60 % → 82 % 🇺🇸 US 7 ⚠️
Grok 4 1 370 → 54 → 58 % → 75 % → 🇺🇸 US 5
Mistral Large 3.5 🆕 1 365 ↑↑ 55 ↑ 55 % ↑ 73 % ↑ 🇫🇷 UE 6
DeepSeek R2 1 368 ↑ 53 → 62 % → 73 % → 🇨🇳 Chine 2

En gras : leader sur la colonne. 🆕 : nouveauté de la semaine. ↑ / ↑↑ / → : tendance par rapport à la semaine précédente. Lecture des symboles RGPD : ✅ conformité native (hébergement UE), ⚠️ utilisable avec précautions (anonymisation obligatoire), ❌ à proscrire pour tout traitement de données d’élèves.

Le bon modèle pour le bon usage

Aucun modèle n’est meilleur partout. Voici les recommandations par usage pédagogique courant.

Usage pédagogique Modèle recommandé Alternative Remarque
Préparer un cours, créer une progression, rédiger des fiches Claude Opus 4.7 GPT-5.5 Écriture longue, structurée, ton ajustable
Corriger des copies, analyser un texte d’élève Claude Opus 4.7 Gemini 3.1 Pro Fenêtre de contexte large, lecture fine
Aide aux élèves en sciences (physique, SVT, maths avancées) Gemini 3.1 Pro GPT-5.5 Meilleur sur GPQA Diamond, raisonnement scientifique
Code et NSI Claude Opus 4.7 GPT-5.5 70 % sur SWE-bench, leader CursorBench
Recherche documentaire avec sources vérifiables Gemini 3.1 Pro Perplexity Recherche web native, citations claires
Souveraineté et RGPD (données d’élèves) Mistral Large 3 Le Chat Pro Hébergement européen, conformité native

Hébergement et conformité. Claude, GPT et Gemini sont hébergés aux États-Unis. Pour traiter la moindre donnée personnelle d’élève, passer par Mistral (hébergement français) ou anonymiser systématiquement avant import.

Les benchmarks expliqués simplement

Quand on lit qu’un modèle « atteint 70 % sur SWE-bench », il faut savoir ce que ça veut dire — et ne pas dire.

LMArena — Préférences humaines, mesurées en aveugle : deux modèles répondent à la même question, des humains votent pour la meilleure réponse. Les votes sont agrégés en un score Elo, comme aux échecs. Mesure : la qualité perçue. Ne mesure pas : la justesse factuelle (un modèle qui « parle bien faux » peut bien y figurer).

Artificial Analysis Intelligence Index — Score composite combinant plusieurs benchmarks (raisonnement, code, mathématiques). Mesure : la performance générale agrégée. Limite : la composition de l’index évolue, les comparaisons d’une semaine à l’autre supposent des hypothèses méthodologiques.

MMLU (Massive Multitask Language Understanding) — 57 disciplines, du droit à la médecine, format QCM. Mesure : l’étendue des connaissances. Limite : le benchmark est presque saturé (les meilleurs modèles dépassent 90 %), peu discriminant aujourd’hui.

GPQA Diamond — Questions scientifiques très difficiles, conçues pour résister à la recherche Google. Mesure : la capacité de raisonnement scientifique de niveau doctorant. Limite : corpus restreint, biais disciplinaires.

SWE-bench — Issues GitHub réelles à résoudre par modification de code. Mesure : la programmation appliquée. Limite : langage et écosystèmes représentés inégalement, contamination possible des données d’entraînement.

Trois biais transverses à garder en tête : la saturation (un benchmark trop facile cesse de discriminer), la contamination (les modèles ont parfois vu les questions pendant l’entraînement), et les biais culturels et linguistiques (la majorité sont en anglais, sur des références américaines).

Historique des bascules

Et pour l’Éducation nationale ?

Les sites tech grand public se concentrent sur les performances brutes. Pour un cadre de l’Éducation nationale, trois critères supplémentaires entrent en jeu.

Conformité RGPD et hébergement. Les modèles américains (Claude, GPT, Gemini) hébergent les données aux États-Unis. Toute donnée nominative d’élève qui leur est confiée transite hors UE. Pour rester conforme : anonymisation obligatoire avant import, ou utilisation d’un modèle européen (Mistral, qui héberge en France).

Compatibilité GAR. À ce jour, aucun de ces modèles généralistes n’est intégré au GAR académique. Pour un usage en classe avec authentification élève, il faut passer par les outils nationaux (MIA Seconde, P2IA au cycle 2) ou par un contrat individuel enseignant.

Doctrine académique. Le Cadre d’usage de l’IA en éducation publié en juin 2025 rappelle que l’IA assiste, ne se substitue pas. Pour les évaluations, l’AI Act classe l’usage en haut risque (Annexe III). La règle : signature humaine, supervision effective, information des familles.

En pratique pour un chef d’établissement. Privilégier Mistral Large 3 ou Le Chat Pro pour tout ce qui touche aux données d’élèves. Réserver les modèles US (Claude, GPT, Gemini) à la préparation pédagogique générale, sans nom ni copie identifiable. Documenter l’usage dans le règlement intérieur ou la note de rentrée.

Méthodologie

Trois sources publiques sont consultées chaque lundi pour mettre à jour le baromètre :

Avant chaque mise à jour, la version précédente est archivée dans la section Historique des bascules. Aucun classement présenté ici n’est tenu pour vérité absolue : ce sont des indicateurs convergents, à interpréter avec les limites listées dans la section benchmarks.

Pour aller plus loin

Plusieurs prolongements sont à l’étude pour ce baromètre :

Si l’une ou l’autre de ces idées t’intéresse en priorité, écris-le-moi.


Sources de la semaine : LMArena (consulté le 4 mai 2026), Artificial Analysis (publication du 4 mai 2026), LLM Stats (consulté le 4 mai 2026), keynote Mistral AI Summit (Station F, 1ᵉʳ mai 2026). Documents de référence : Cadre d’usage de l’IA en éducation (juin 2025), AI Act règlement (UE) 2024/1689.