Réflexions

Hattie au-delà du palmarès

Hattie au-delà du palmarès

Un classement, un soir de pré-rentrée

On imagine…
« Fin août, dernière réunion de pré-rentrée, un IA-IPR invité présente quelques diapositives sur « ce qui marche en classe ». Sur l’écran, une longue liste de pratiques avec un chiffre à côté de chacune : la clarté du professeur, 0,75. Le feedback enseignant, 0,70. La discussion en classe, 0,82. Les devoirs au collège, 0,30. Au fond de la salle, un collègue se penche : « Donc les devoirs, on arrête ? » Plus loin, une AED note tout consciencieusement. Et personne, pas même le présentateur, ne dit explicitement ce que veulent dire ces chiffres.

La scène se rejoue à chaque rentrée dans des dizaines d’établissements. Les méta-analyses du chercheur néo-zélandais John Hattie, regroupées sous l’étiquette Visible Learning, sont devenues l’un des objets pédagogiques les plus cités — et les plus mal lus — de la dernière décennie. Pour comprendre pourquoi un d de 0,30 n’est pas une condamnation des devoirs, et pourquoi un d de 0,82 n’est pas un miracle, il faut accepter de passer cinq minutes sur la statistique. C’est le prix d’entrée. »

Ce que mesure une taille d’effet

Une taille d’effet, dans la forme la plus courante chez Hattie, c’est un d de Cohen. Le principe est simple. On compare deux groupes — un groupe qui bénéficie d’une intervention pédagogique, un groupe témoin qui n’en bénéficie pas — et on mesure l’écart entre leurs moyennes, exprimé en fractions d’écart-type. Un d de 0 signifie que les deux groupes obtiennent le même score moyen, donc aucun effet. Un d de 1 signifie que la moyenne du groupe testé se situe à un écart-type au-dessus de celle du groupe témoin : pour fixer les idées, cela revient à dire que l’élève moyen du groupe testé dépasse environ 84 % des élèves du groupe témoin.

Jacob Cohen, en 1988, proposait une grille de lecture devenue classique en sciences sociales : 0,20 = petit effet, 0,50 = effet moyen, 0,80 = grand effet. C’est ce que les manuels de statistique répètent depuis quarante ans. Sauf qu’en éducation, cette grille est trompeuse.

Hattie l’a montré dans une synthèse portant initialement sur plus de 800 méta-analyses, élargie depuis à plus de 2 100, agrégeant plusieurs dizaines de millions d’élèves répartis sur cinq décennies. Lorsqu’on regarde la distribution globale des effets en éducation, la moyenne tourne autour de 0,40. Autrement dit, la quasi-totalité de ce qu’on fait à l’école — enseigner, évaluer, accompagner, organiser — produit quelque chose. Très peu d’interventions affichent un effet nul ou négatif. La plupart obtiennent un effet positif, parce que tout vaut mieux que ne rien faire.

Hattie propose donc de déplacer le seuil de référence. Pas 0 comme point de comparaison, mais 0,40 — soit l’effet moyen d’une année de scolarité ordinaire sur les acquis d’un élève. En dessous de 0,40, on fait moins bien qu’une année banale. Au-dessus, on accélère. C’est ce qu’il appelle le hinge point, le point de bascule.

L’échelle recalibrée

Avec ce déplacement du seuil, l’échelle se resserre brutalement. Un effet de 0,50, qui paraissait « moyen » chez Cohen, devient légèrement supérieur à la norme du métier. Un effet de 0,70 indique une pratique qui produit, en gros, un an et trois quart de progression scolaire là où une année banale en produirait un seul. Un effet de 0,80 ou plus signale une intervention exceptionnelle, statistiquement très rare dans le corpus mondial.

Cette recalibration éclaire les chiffres du début. La discussion en classe, à 0,82, ne fait pas « un peu mieux » qu’une année moyenne : elle double presque le rythme de progression attendu sur la durée mesurée. La clarté du professeur à 0,75 — le fait d’énoncer précisément les objectifs, de structurer les explications, de signaler les transitions, de revenir explicitement sur ce qui vient d’être traité — produit un effet comparable à celui d’une pratique délibérée organisée. Le feedback enseignant à 0,70 confirme ce que toute enseignante sent intuitivement : un retour précis, ciblé, exploitable transforme un cours en apprentissage. La pratique délibérée elle-même, ces séances structurées de répétition raisonnée des gestes fondamentaux, culmine à 0,79, juste sous le seuil de l’exceptionnel.

L’enseignement explicite, plus modeste à 0,60, reste nettement au-dessus du seuil de référence et confirme l’intérêt de structurer méthodiquement les explications — modélisation, pratique guidée, pratique autonome — plutôt que de laisser l’élève « découvrir » seul une notion qu’on aurait pu enseigner en vingt minutes. Au passage, ce chiffre nourrit depuis quinze ans le débat franco-québécois sur les méthodes inductives versus déductives, sans trancher complètement : 0,60 reste un effet solide, mais inférieur à celui d’une discussion structurée.

Et les devoirs au collège à 0,30 ? Ils ne sont pas inutiles. Ils sont en dessous de ce qu’une année de scolarité ordinaire produit, ce qui veut dire qu’un élève qui passe deux heures par soir à recopier des exercices apprend moins, à temps égal, qu’un élève qui aurait passé ces deux heures en classe avec un enseignant qui pratique la clarté du professeur et le feedback. Le détail est important : Hattie distingue l’élémentaire (d ≈ 0,10 voire moins selon les synthèses), le collège (d ≈ 0,30) et le lycée (d ≈ 0,64). Le devoir change littéralement de statut quand l’élève change d’âge. Une politique d’établissement qui calque ses pratiques de devoirs sur celles d’un lycée sans tenir compte de l’âge des élèves passe à côté de l’information utile.

Quelques chiffres qui dérangent

D’autres résultats de Hattie méritent d’être mis sur la table, parce qu’ils contre-intuitent franchement les politiques publiques. La réduction de la taille des classes, débat récurrent en France comme ailleurs : 0,21, soit en dessous du seuil de référence. Cela ne veut pas dire que passer une classe de 30 à 15 n’a aucun effet. Cela veut dire que l’effet, mesuré sur les acquis, est plus faible que ce qu’une année normale produit. Probablement parce qu’une diminution du nombre d’élèves n’implique pas automatiquement un changement de pratiques pédagogiques : le même cours, devant moins de monde, reste le même cours.

Le redoublement : entre -0,17 et -0,32 selon les synthèses, c’est-à-dire un effet négatif. L’élève redoublant progresse moins, en moyenne, que s’il était passé. C’est l’un des résultats les plus stables de la recherche en éducation depuis trente ans, et l’un des moins relayés en salle des profs. La différenciation par groupes de niveau à 0,12, à peine perceptible. La mobilité scolaire — changements d’école répétés — à -0,34, un effet franchement délétère qui mérite d’être rappelé chaque fois qu’on parle de carte scolaire.

À l’inverse, l’efficacité collective perçue par l’équipe enseignante — le fait que les profs d’un établissement croient sincèrement qu’ils peuvent faire progresser leurs élèves — atteint 1,57, le plus haut effet du corpus. Les notes que l’élève s’auto-attribue avant l’évaluation officielle : 1,33. L’élève est, en moyenne, un excellent prédicteur de sa propre note, ce qui en dit long sur sa lucidité métacognitive et invite à interroger ce qu’on fait de cette lucidité en classe. La crédibilité du professeur aux yeux de ses élèves : 0,90. On peut hausser les épaules ; on peut aussi y voir l’indice qu’un climat d’équipe et qu’une relation pédagogique solide pèsent plus lourd que n’importe quel dispositif technique acheté à grands frais.

Pourquoi cette méthodologie a été critiquée

Tout cela serait simple si la méthodologie de Hattie n’avait pas été éreintée par plusieurs statisticiens depuis le milieu des années 2010. En 2017, Pierre-Jérôme Bergeron, statisticien à l’Université d’Ottawa, publie une critique au titre sans détour : « How to engage in pseudoscience with real data ». Il y démonte plusieurs choix techniques. L’agrégation de tailles d’effet calculées de manière hétérogène d’une étude à l’autre, avec des instruments incomparables. Le calcul du fameux hinge point à 0,40 dont la formule arithmétique posée par Hattie ne tient pas debout sur le plan probabiliste. L’hypothèse d’indépendance entre observations, jamais démontrée alors qu’elle est massivement violée dans la pratique. L’absence quasi totale d’intervalles de confiance sur les indicateurs publiés, ce qui empêche tout jugement sur leur précision.

D’autres critiques ont suivi. Adrian Simpson, mathématicien à l’Université de Durham, montre dès 2017 que pooler des effets mesurés sur des durées et des échelles incomparables produit des moyennes sans signification réelle : un effet de 0,40 mesuré sur six semaines de stage intensif et un effet de 0,40 mesuré sur deux ans de programme étalé ne sont pas le même phénomène, même si le chiffre est identique. Ewald Terhart en Allemagne, Wim Van den Noortgate en Belgique ou Dylan Wiliam au Royaume-Uni ont soulevé des objections proches : Hattie classe, ordonne, et présente ses palmarès avec une assurance qui n’est pas justifiée par la qualité statistique sous-jacente.

L’erreur n’est pas dans les chiffres pris un à un, qui peuvent rester informatifs comme ordres de grandeur. Elle est dans la prétention à un classement universel. Une taille d’effet est un résumé extrême, dépendant de l’instrument utilisé, du contexte, de la population testée. Hattie traite des résumés comme s’ils étaient des constantes physiques.

Cette critique ne disqualifie pas l’ensemble du travail. Les ordres de grandeur tiennent : il est très peu probable que la discussion en classe ait en réalité un effet nul, ou que le redoublement soit massivement bénéfique. Mais il faut renoncer à la lecture en classement, où une pratique à 0,79 serait « mieux » qu’une autre à 0,71. La précision implicite des deux décimales est une illusion d’optique. Et plusieurs des résultats les plus médiatisés — l’efficacité collective enseignante à 1,57 par exemple — reposent sur un nombre d’études trop faible pour être considérés comme stabilisés au même titre que la clarté du professeur ou le feedback.

Ce qu’on peut en faire concrètement

Une fois la lecture statistique posée, que reste-t-il d’utilisable ? Trois choses, peut-être.

Un sens des proportions. Quand un projet d’établissement empile sept dispositifs « innovants » dont aucun n’a démontré d’effet supérieur à 0,30 dans la littérature, il y a au moins une question à poser. À l’inverse, quand une équipe pédagogique demande des moyens pour développer le feedback formatif (d ≈ 0,70), la clarté des consignes (d ≈ 0,75) ou la discussion structurée en classe (d ≈ 0,82), elle s’appuie sur des effets robustes que des décennies de recherche internationale ont à peu près convergé à confirmer. Un conseil pédagogique peut s’outiller de ces ordres de grandeur sans en faire des oracles, pour arbitrer entre priorités au moment des choix de formation continue.

Un déplacement de l’attention. Le réflexe institutionnel consiste à chercher quel dispositif installer. Hattie suggère plutôt de chercher quelles pratiques développer, à l’intérieur de n’importe quel dispositif. La taille de classe, l’organisation en îlots, le numérique éducatif, le tutorat — tous ces choix structurels produisent des effets modestes en eux-mêmes, typiquement entre 0,15 et 0,30. Ce qui se passe dans l’interaction enseignant-élève, à l’intérieur du dispositif, pèse beaucoup plus lourd. Cela ne signifie pas que les dispositifs sont indifférents : ils peuvent faciliter ou empêcher certaines pratiques. Mais c’est la pratique observée, soutenue par l’équipe, et finalement enseignée, qui produit l’écart.

Un correctif au culte de l’innovation. Si la discussion en classe — pratique vieille de vingt-cinq siècles, déjà documentée par Platon — figure parmi les interventions les plus efficaces jamais documentées sur les acquis scolaires, il y a là un signal. Le neuf ne vaut pas toujours mieux que le familier bien fait. La nouveauté pédagogique n’est pas en soi un critère ; l’effet observé sur les apprentissages en est un. Cela vaut aussi pour les outils numériques et, par extension, pour les usages de l’IA générative qui s’installent aujourd’hui dans nos établissements : leurs tailles d’effet ne sont pas encore stabilisées, et la prudence consiste à les évaluer à la même aune que tout le reste, sans bonus d’innovation.

Reste qu’il faut résister à la tentation du chiffre seul. Aucune méta-analyse, si large soit-elle, ne dira comment installer une discussion de classe productive dans une troisième difficile de REP, à 11 heures, un vendredi de novembre. Ce travail-là, aucun d ne le remplace. Les indicateurs orientent une direction ; le métier reste à inventer.

Pour aller plus loin