Réflexions

g = 0,867 : pourquoi cette taille d'effet aurait dû nous alerter NOUS=les spécialistes !

g = 0,867 : pourquoi cette taille d'effet aurait dû nous alerter NOUS=les spécialistes !

Un chiffre qui circulait partout

Si vous avez ouvert un support de formation académique sur l’IA depuis l’été 2025, vous l’avez probablement croisé. Un chiffre, presque toujours présenté seul, sans son contexte : ChatGPT améliore la performance d’apprentissage avec un effet important, g = 0,867. La source, prestigieuse, rassurait : une méta-analyse de 51 études, publiée en mai 2025 dans Humanities and Social Sciences Communications, une revue du groupe Nature. Au moment de sa rétractation, l’article cumulait 486 000 vues, 266 citations et un score Altmetric supérieur à 1 000.

Le 22 avril 2026, Springer Nature a retiré l’article. Le motif tient en une phrase de l’avis de rétractation : des « discrepancies in the meta-analysis » qui « undermine the confidence the Editor can place in the validity of the analysis ». Les auteurs, Jin Wang et Wenxiang Fan, de l’Université normale de Hangzhou, n’ont pas répondu à la correspondance. Le chiffre, lui, continue de circuler. Il a été cité dans des plans académiques de formation, dans des conférences. On le retrouve encore, en 2026, sur des sites de fournisseurs edtech qui n’ont pas eu l’occasion (ou la volonté) de mettre à jour leurs supports.

Ce que dit vraiment un g de Hedges

Le g de Hedges est une mesure standardisée d’écart entre deux groupes. Sa logique est simple : on compare la moyenne du groupe qui a reçu l’intervention (ici, ChatGPT) à celle du groupe témoin, et on divise par la dispersion observée. Le résultat est un nombre sans unité, comparable d’une étude à l’autre, quel que soit le barème ou la discipline.

L’échelle d’interprétation héritée de Cohen donne des repères généralistes : 0,2 pour un effet petit, 0,5 pour un effet moyen, 0,8 pour un effet grand. Mais cette échelle est trompeuse en pédagogie, parce qu’elle vient d’études faites en psychologie clinique, en médecine, en marketing — des domaines où le bruit de fond est moindre que dans une salle de classe.

C’est ici que John Hattie entre en scène. Sa synthèse Visible Learning, qui agrège plus de 1 200 méta-analyses et plusieurs centaines de millions d’élèves, a établi un point de bascule pour l’éducation : 0,4. C’est la moyenne des effets observés sur les apprentissages scolaires, et ce qu’on peut attendre d’une année d’enseignement ordinaire. Au-dessus de 0,4, une intervention « vaut le coup ». Au-dessous, elle ne fait pas mieux que ce qu’un enseignant produit de toute façon.

Avec ce calibrage, l’échelle change : 0,7 est déjà remarquable, 0,8 confine à l’exceptionnel. Pour fixer les idées, voici quelques effets connus tirés des travaux de Hattie. Le feedback enseignant : autour de 0,70. La discussion en classe : 0,82. L’enseignement explicite : environ 0,60. La pratique délibérée : 0,79. La clarté du professeur : 0,75. Les devoirs au collège : 0,30.

Annoncer un g de 0,867 pour ChatGPT, ce n’était pas annoncer un effet « important ». C’était annoncer que quelques semaines d’utilisation d’un agent conversationnel produisaient plus de progrès qu’une année entière passée avec un professeur expérimenté qui pratique l’enseignement explicite et donne du feedback. Un effet supérieur à toutes les pratiques pédagogiques documentées depuis cinquante ans. C’est précisément cet écart à la réalité qui aurait dû éveiller la vigilance — et qui ne l’a pas fait.

L’anatomie d’une méta-analyse qui s’effondre

Le travail de Wang et Fan agrégeait 51 études quasi-expérimentales publiées entre novembre 2022 et février 2025. Au-delà du chiffre principal, l’article rapportait aussi un effet sur la perception de l’apprentissage (g = 0,456) et sur la pensée d’ordre supérieur (g = 0,457), avec un effet particulièrement marqué dans les filières STEM (g = 0,737). Tout était présenté avec l’apparat statistique attendu : tests de modération, graphiques en entonnoir, analyses de sensibilité.

Les critiques méthodologiques apparues dès l’automne 2025 pointaient toutes le même problème de fond : agréger 51 études dont les durées, les tâches, les modalités d’évaluation, les barèmes et les populations sont radicalement différentes ne produit pas une mesure plus fiable. Cela produit un chiffre artificiellement élevé, gonflé par le biais de publication — les études qui « ne montrent rien » sortent rarement de leur tiroir — et par l’hétérogénéité des protocoles. Mélanger des pommes, des oranges et quelques clés à molette, comme l’avait formulé le statisticien Adrian Simpson à propos de la méthode Hattie elle-même, ne donne pas une salade de fruits : cela donne du bruit qui ressemble à un signal.

« An impressive effect size is meaningless if based on flawed or incomparable inputs. A value like g = 0,867, calculated across such varied studies, might look precise but tells us little about real-world, generalizable effects. »

Cette remarque, publiée six mois avant la rétractation officielle, résumait le problème. Springer Nature a fini par y souscrire, sans détailler publiquement les « discrepancies » identifiées. L’institutionnalisation de la critique a pris dix-huit mois. Pendant ces dix-huit mois, le chiffre a fait son office : convaincre.

Ce que cette rétractation change pour notre lecture des études IA

La rétractation Wang-Fan n’est pas un cas isolé. Elle est emblématique d’un moment particulier : celui où la recherche académique court derrière une technologie qui se transforme tous les six mois. ChatGPT de novembre 2022 et ChatGPT de février 2025 ne sont pas le même outil. Les regrouper dans une seule méta-analyse, comme si l’objet d’étude était stable, suppose une fiction commode. Cette fiction profite à tous : aux chercheurs qui publient vite, aux journaux qui collectent les vues, aux décideurs qui veulent une réponse simple à une question complexe.

Pour qui suit l’IA en éducation depuis l’intérieur — comme chef d’établissement, comme cadre académique, comme enseignant qui doit présenter quelque chose à ses collègues — l’enseignement opérationnel est double. D’abord, savoir lire une taille d’effet devient une compétence professionnelle. Quand un fournisseur, une note de cadrage ou une formation cite un « effet significatif », la première question utile est : quelle taille d’effet, sur quelle durée, comparé à quoi ? Un chiffre seul ne dit rien. Un chiffre comparé à 0,4 commence à dire quelque chose. Un chiffre situé dans la distribution des effets pédagogiques connus dit beaucoup.

Ensuite, traiter avec la même méfiance les très grands et les très petits effets. Une méta-analyse qui annonce un g de 0,87 sur des apprentissages scolaires devrait susciter exactement la même perplexité qu’une étude qui prétendrait que la vitamine X guérit le cancer : si c’était vrai à ce niveau, on le saurait, et l’effet aurait été répliqué partout. À l’inverse, un g de 0,12, présenté comme « non significatif », peut cacher un mécanisme intéressant si la durée d’étude est courte ou la population spécifique.

Et l’étude MIT-Kosmyna, alors ?

L’objection classique vient immédiatement : « mais l’étude EEG du MIT qui montre une baisse de l’engagement cognitif avec ChatGPT, vous y croyez, vous ? » La réponse honnête est : avec la même prudence. L’étude Kosmyna de 2025 mesure un effet sur 54 participants, sur un protocole court, avec des indicateurs neurophysiologiques qui posent leurs propres questions d’interprétation. Elle dit quelque chose, mais ce quelque chose mérite d’être lu avec les mêmes outils critiques que la méta-analyse Wang-Fan. La différence : l’étude MIT n’a jamais prétendu produire un effet pédagogique général. Sa modestie méthodologique est sa force.

Pour la semaine prochaine

Si l’on devait retenir un geste professionnel de cette affaire, ce serait celui-ci : avant de citer un chiffre sur l’IA en classe, vérifier qu’il survit à trois questions simples. Comparé à quoi ? Sur combien de temps ? Avec quel intervalle de confiance ? Si les trois réponses ne sont pas immédiatement disponibles, le chiffre ne mérite pas qu’on lui consacre une diapositive. Et si l’on cite le g de Hedges, on le situe sur l’échelle de Hattie, pas sur celle de Cohen. La salle des profs en a vu d’autres : elle saura faire la différence.

Pour aller plus loin