Réflexions

Le rapport Epoch AI qui a tout changé

3 mai 2026 · 3 vues

Publié en février 2025 par un institut de recherche indépendant, ce rapport a fait basculer un consensus médiatique qui durait depuis deux ans. Retour sur une enquête minutieuse, sa méthodologie, et ce qu’elle ne dit pas.

Une étude, un auteur, un institut

Le 7 février 2025, Epoch AI publie dans sa newsletter Gradient Updates un article intitulé sobrement : « How much energy does ChatGPT use ? ». L’auteur principal est Josh You, analyste de données chez Epoch AI, avec la contribution d’Alex Erben et Ege Erdil pour les calculs.

Epoch AI n’est pas un acteur de l’industrie de l’IA, mais un institut de recherche à but non lucratif spécialisé dans l’analyse quantitative de la trajectoire de l’intelligence artificielle. Cette indépendance est importante pour comprendre l’écho qu’a reçu le rapport : il ne s’agit pas d’un communiqué d’OpenAI cherchant à minimiser son impact, mais d’une analyse externe.

La conclusion centrale du rapport tient en une phrase : une requête typique sur ChatGPT (modèle GPT-4o) consomme environ 0,3 wattheure, soit dix fois moins que l’estimation largement reprise jusqu’alors.

D’où venait le chiffre des « 3 Wh » ?

Pour comprendre la portée du rapport, il faut remonter à sa cible. L’estimation de 3 wattheures par requête provient d’un article d’Alex de Vries publié en 2023 dans la revue Joule. Cette étude, largement relayée, a été reprise par Goldman Sachs, par l’Agence internationale de l’énergie (AIE), et par d’innombrables médias. Elle est devenue le « chiffre officieux » du débat.

Mais cette estimation reposait elle-même sur des données de février 2023 fournies par SemiAnalysis, avec trois hypothèses que Josh You juge dépassées ou pessimistes :

Modèle de référence : 175 milliards de paramètres pour GPT-3.5
Matériel : serveurs A100 HGX, génération précédente de GPU Nvidia
Taille des réponses : 4 000 tokens en entrée et 2 000 tokens en sortie par requête, soit environ 1 500 mots par réponse

Or ce dernier point est crucial : 1 500 mots par réponse, c’est l’équivalent d’un long article de magazine. La très grande majorité des requêtes réelles produisent des réponses bien plus courtes. Une étude académique citée par Josh You (Chiang et al., 2024) sur un large jeu de conversations chatbot mesure une longueur moyenne de réponse de 269 tokens, soit environ sept fois moins que l’hypothèse de De Vries.

La méthode pas à pas

Le rapport d’Epoch AI suit la même logique que De Vries, mais en réactualisant chaque paramètre. Voici la chaîne de calcul détaillée.

Étape 1 : la quantité de calcul nécessaire

Un grand modèle de langage génère du texte token par token. Chaque token nécessite environ deux opérations en virgule flottante (FLOP) par paramètre actif du modèle.

Modèle de référence : GPT-4o, estimé à 200 milliards de paramètres au total.
GPT-4o étant probablement un modèle de type mixture-of-experts, tous les paramètres ne sont pas activés simultanément. Hypothèse retenue : 100 milliards de paramètres actifs.
Hypothèse de longueur de réponse : 500 tokens en sortie (≈ 400 mots), soit volontairement plus que la moyenne mesurée par Chiang et al., pour rester du côté pessimiste.

Calcul : 500 × 2 × 100 milliards = 10¹⁴ FLOP par requête.

Étape 2 : du calcul à l’énergie

Pour convertir ces FLOP en énergie, il faut connaître le matériel utilisé.

Hypothèse : OpenAI utilise des GPU Nvidia H100 pour l’inférence (ce qui est le standard de l’industrie).
Le H100 a une puissance nominale de 700 W, mais en cluster, avec les serveurs et l’infrastructure data center, on monte à environ 1 500 W effectifs par GPU.
Capacité de calcul : 989 téraFLOP par seconde au pic.

Avec ces chiffres bruts, traiter une requête prendrait 0,1 seconde de temps GPU. Mais deux corrections importantes interviennent.

Étape 3 : les corrections réalistes

Taux d’utilisation : un GPU n’atteint jamais sa capacité maximale en pratique. En inférence, les goulots d’étranglement liés à la bande passante mémoire limitent fortement les performances réelles. Josh You retient une utilisation effective de 10 %, ce qui multiplie par dix le temps GPU réellement nécessaire.

Pour valider cette hypothèse, il s’appuie sur une analyse économique élégante : connaissant le tarif de location des H100 (environ 2 $/h) et les prix du marché pour servir un modèle ouvert comparable (Llama 3.1 405B à 3,50 $ par million de tokens), on peut remonter au taux d’utilisation effectif. Le calcul confirme un ordre de grandeur autour de 10 %.

Consommation électrique moyenne : un GPU ne consomme pas en permanence sa puissance maximale. Une étude de chercheurs Microsoft Azure (Patel et al., 2024) mesure une consommation moyenne d’environ 70 % du TDP lors de l’inférence intensive.

Étape 4 : le résultat

En combinant tout cela :

Temps GPU réel par requête : 1 seconde environ (après correction d’utilisation)
Puissance moyenne : 1 500 W × 70 % = 1 050 W
Énergie : 1 050 W × 1 s = 1 050 wattseconde

Soit 0,3 Wh par requête.

Pour donner un ordre de grandeur, c’est moins que ce que consomme une ampoule LED ou un ordinateur portable en quelques minutes. Un foyer américain moyen consomme 28 000 Wh par jour, soit l’équivalent d’environ 90 000 requêtes ChatGPT.

Les angles morts du rapport (que Josh You assume)

Là où le rapport est honnête, c’est qu’il ne se présente pas comme une vérité absolue. Plusieurs nuances importantes sont posées explicitement.

Les requêtes longues coûtent beaucoup plus cher

Les calculs précédents valent pour une requête courte avec une réponse de 500 tokens. Mais GPT-4o accepte jusqu’à 128 000 tokens en entrée. Pour de tels usages, le mécanisme d’attention des transformers fait exploser le coût car il scale quadratiquement avec la longueur d’entrée.

Concrètement :

10 000 tokens en entrée (un article scientifique court) : ≈ 2,5 Wh par requête.
100 000 tokens en entrée (≈ 200 pages de texte) : ≈ 40 Wh par requête.

C’est un facteur multiplicatif considérable. Toute personne qui injecte régulièrement de longs documents dans ChatGPT est sur un régime énergétique radicalement différent.

Les modèles de raisonnement consomment davantage

GPT-4o est le modèle « grand public » d’OpenAI. Mais o1, o3 et leurs successeurs — les modèles dits de raisonnement — génèrent de longues chaînes de pensée internes avant de répondre. Josh You a fait une mesure informelle : sur un même jeu de questions, o1 et o3-mini produisent en moyenne 2,5 fois plus de tokens que GPT-4o.

Si ces modèles deviennent dominants (et ils le deviennent), l’estimation de 0,3 Wh devient mécaniquement obsolète à la hausse.

L’opacité d’OpenAI rend toute estimation incertaine

Josh You le reconnaît : le compte exact de paramètres de GPT-4o n’est pas public, ni le nombre exact de tokens générés en moyenne, ni le taux d’utilisation réel des clusters. Toutes ces hypothèses sont des estimations argumentées, pas des mesures.

Le MIT Technology Review l’a souligné dans un article de mai 2025 : « l’estimation d’Epoch AI repose sur de nombreuses hypothèses qui ne peuvent être vérifiées ». Selon le grid énergétique connecté au data center, l’heure de la journée et les optimisations propriétaires, une requête peut être des milliers de fois plus énergivore qu’une autre.

Ce que le rapport ne traite pas

Le rapport se concentre délibérément sur le coût marginal d’une requête. Trois dimensions importantes restent en dehors du périmètre.

L’entraînement

Josh You aborde brièvement le sujet : l’entraînement de modèles comparables à GPT-4o consomme environ 20 à 25 mégawatts pendant trois mois, soit la consommation d’environ 20 000 foyers américains. Mais comme ChatGPT a 300 millions d’utilisateurs, l’entraînement amorti par utilisateur reste modéré. La conclusion d’Epoch AI : la consommation totale d’inférence (≈ 12,5 MW continu) est désormais comparable à la consommation d’entraînement, signe que les modèles sont utilisés bien plus longtemps qu’ils ne sont entraînés.

L’énergie embarquée du matériel

Construire un GPU coûte de l’énergie. Josh You s’appuie sur Luccioni et al. (2022), qui ont montré que pour BLOOM, l’énergie embarquée des serveurs et GPU représentait moins de la moitié de l’énergie d’entraînement directe. Conclusion : c’est non négligeable mais marginal par rapport au coût d’utilisation cumulé.

L’eau

Le rapport ne traite pas du tout la consommation d’eau, qui constitue pourtant une dimension critique pointée par d’autres études (notamment celle de UC Riverside, Making AI Less Thirsty, 2023).

La projection à long terme

Là où Josh You ne minimise rien, c’est sur les perspectives. Il cite explicitement les estimations de Goldman Sachs et de l’EPRI selon lesquelles les data centers d’IA pourraient consommer jusqu’à 10 % de l’électricité américaine d’ici 2030, contre environ 0,3 % aujourd’hui. C’est une multiplication par trente en six ans.

Sa conclusion mérite d’être citée intégralement (en traduction libre) : « le coût marginal actuel d’utilisation d’un chatbot est faible selon les standards des autres usages ordinaires de l’électricité. Cela ne signifie pas qu’il faut écarter les inquiétudes sur l’impact global de l’IA sur l’environnement et l’énergie, en particulier à long terme. »

Autrement dit : arrêter d’utiliser ChatGPT ne va pas sauver la planète, mais l’industrie dans son ensemble pose un problème systémique réel.

Les autres voix dans le débat

Plusieurs analystes ont pris position après la publication du rapport.

Hannah Ritchie, économiste de l’environnement réputée pour son travail sur Our World in Data et son blog Sustainability by Numbers, va plus loin que Josh You. Selon elle, l’estimation de 0,3 Wh est elle-même probablement encore trop pessimiste, et le vrai chiffre pourrait être inférieur. Sa conclusion : « pour l’utilisateur ordinaire ou même intensif d’IA textuelle, arrêtez de stresser sur l’empreinte énergétique. »

Sam Altman, PDG d’OpenAI, a publié en juin 2025 sur X une donnée congruente : 0,34 Wh par requête. Source non indépendante, mais convergente.

Surfshark, dans une étude comparative, a retenu une moyenne de 2 Wh par requête pour ses propres calculs, en faisant la moyenne des estimations basses (0,3 Wh d’Epoch) et hautes (3 Wh de De Vries, 2,9 Wh d’EPRI). Cette approche moyenniste illustre bien l’ampleur de l’incertitude qui demeure.

L’Agence internationale de l’énergie, dans son rapport Energy and AI (avril 2025), maintient des estimations plus prudentes mais reconnaît que les chiffres antérieurs étaient probablement maximisants.

Ce qu’il faut retenir

Le rapport Epoch AI n’est ni un blanchiment de l’IA, ni un brûlot écologiste. C’est un travail technique honnête qui fait trois choses :

Il invalide définitivement l’estimation des 3 Wh comme chiffre représentatif d’une requête actuelle, en montrant qu’elle reposait sur des hypothèses obsolètes (matériel A100, réponses de 2 000 tokens).
Il établit un nouvel ordre de grandeur, autour de 0,3 Wh, comparable à une recherche Google classique.
Il maintient ouvertes les vraies questions : longueur des contextes, modèles de raisonnement, opacité industrielle, et surtout effet de volume à l’échelle des milliards de requêtes quotidiennes.

Pour le citoyen, la leçon est qu’utiliser ChatGPT au quotidien représente une fraction négligeable de son empreinte personnelle. Pour le décideur public, le travail reste entier : ce sont les infrastructures, leur localisation, leur source d’énergie et leur consommation d’eau qui constituent le vrai enjeu — pas la culpabilisation des utilisateurs.

Source primaire : Josh You, How much energy does ChatGPT use?, Epoch AI, Gradient Updates, 7 février 2025. Disponible librement sur epoch.ai, sous licence Creative Commons.

Sources secondaires : Alex de Vries (Joule, 2023) ; Chiang et al. (2024) ; Luccioni et al. (2022, 2024) ; Patel et al. (Microsoft Azure, 2024) ; MIT Technology Review (mai 2025) ; Hannah Ritchie / Sustainability by Numbers (2025) ; TechCrunch (février 2025) ; AIE Energy and AI (avril 2025).