C’est une question que l’on me pose souvent, en variantes : « Quand tu écris sur l’IA, tu parles de quoi exactement, à partir de quand ça commence ? » Réponse longue ci-dessous. Réponse courte : ça dépend de ce qu’on appelle intelligence. Et c’est précisément pour ça que je commence par la Pascaline — un objet du XVIIᵉ siècle qui pose, en creux, toute la question.
Cet article est volontairement long. Il s’adresse à un collègue qui voudrait avoir, en une lecture, une vue d’ensemble cohérente — pour ne plus jamais se faire piéger par un « mais ChatGPT, c’est complètement nouveau ! » en salle des profs.
1. 1642 — la Pascaline, ancêtre supposé
Blaise Pascal a 18 ans, son père est commissaire des impôts à Rouen, et il regarde son père s’épuiser sur des additions de centaines de lignes, jour après jour. Trois ans de travail, une cinquantaine de prototypes assemblés par les horlogers de Rouen, et en 1645 le jeune Pascal présente sa machine — la Pascaline.
Ce qu’elle fait : addition et soustraction directes, multiplication et division par addition/soustraction répétées. La trouvaille technique : un mécanisme de retenue automatique — quand le cadran des unités passe de 9 à 0, il pousse le cadran des dizaines d’un cran. Banal aujourd’hui, révolutionnaire en 1642.
Ce qu’elle est, philosophiquement : « la première tentative dans l’histoire de substituer le travail d’une machine à celui de l’esprit humain » (formule classique des historiens des techniques). C’est cette phrase qu’il faut tenir. La Pascaline ne pense pas, elle ne raisonne pas, elle ne s’adapte pas. Mais elle remplace — pour la première fois mécaniquement — un acte qu’on croyait jusque-là réservé au mental humain.
Vingt machines vendues. Neuf encore connues aujourd’hui (musées des Arts et Métiers, Cluny, Dresde…). En 1671, Leibniz reprend le principe et y ajoute la multiplication automatique. Le geste est lancé.
2. 1642–1936 — la préhistoire conceptuelle
Trois siècles séparent la Pascaline de l’IA. Trois siècles pendant lesquels personne n’utilise le mot « intelligence artificielle » — mais où l’on accumule les briques.
- Leibniz (1671) : machine arithmétique perfectionnée, et plus tard, projet d’un characteristica universalis — un langage formel qui permettrait, dit-il, de « calculer » n’importe quel raisonnement. C’est le rêve qui hante toute l’IA symbolique trois siècles plus tard.
- Charles Babbage (1834) : conçoit la machine analytique, première machine programmable de l’histoire (jamais construite faute de financement). Architecture mémoire / unité de calcul / programme — exactement ce qu’on retrouvera dans tous les ordinateurs modernes.
- Ada Lovelace (1843) : écrit le premier programme de l’histoire pour la machine de Babbage. Elle est aussi la première à voir que cette machine « pourrait composer de la musique aussi élaborée que l’on voudrait » — première intuition que la machine pourra faire mieux que calculer.
- George Boole (1854) : invente l’algèbre logique. Vrai/faux, et/ou/non deviennent calculables. Sans Boole, pas d’électronique numérique.
À ce stade, on a : un rêve (Leibniz), une architecture (Babbage), une logique exécutable (Boole). Il manque la machine, et il manque la théorie.
3. 1936–1956 — les fondateurs
C’est le moment où tout bascule. Quatre noms, vingt ans.
Alan Turing (1936) publie « On Computable Numbers » et invente la machine de Turing — un modèle théorique d’un calculateur universel. Ce papier est l’acte de naissance de l’informatique théorique. Tout ce qu’on appelle aujourd’hui « calculable » est défini par référence à cet article.
Turing à nouveau (1950) : article « Computing Machinery and Intelligence » dans Mind. La question est posée frontalement : « Can machines think ? » Turing esquive le débat philosophique en proposant un test opérationnel — le jeu de l’imitation, qu’on appelle aujourd’hui test de Turing. Si une machine, en conversation textuelle, est indiscernable d’un humain pour un juge moyen, on peut, dit-il, parler d’intelligence.
John von Neumann (1945) : architecture « stored-program » — le programme et les données dans la même mémoire. C’est l’architecture de tous les ordinateurs depuis. Sans elle, pas de logiciel.
Conférence de Dartmouth (été 1956) : huit semaines à Dartmouth College, organisées par John McCarthy, Marvin Minsky, Claude Shannon et Nathaniel Rochester. Vingt participants, dont Newell, Simon, Solomonoff. McCarthy y impose le terme « Artificial Intelligence » — explicitement contre les dénominations rivales (« cybernétique », « machines pensantes »). C’est l’acte de naissance officiel de l’IA comme discipline scientifique autonome.
À partir de là, on a un nom, un programme de recherche, et des financements (DARPA principalement). Tout va aller très vite — et très loin dans les promesses.
4. 1956–1973 — l’âge symbolique
Première grande période de l’IA, dite symbolique (parce qu’elle manipule des symboles formels via des règles logiques) ou GOFAI (Good Old-Fashioned AI).
- 1955-1956 : Newell, Simon et Shaw écrivent Logic Theorist, considéré comme le premier programme d’IA — il prouve 38 des 52 théorèmes du chapitre 2 des Principia Mathematica de Russell et Whitehead.
- 1957 : Frank Rosenblatt invente le perceptron, premier réseau de neurones artificiel monocouche. Premier moment connexionniste de l’histoire.
- 1958 : McCarthy crée Lisp — le langage de programmation qui dominera l’IA pendant 30 ans.
- 1965-1966 : Joseph Weizenbaum écrit ELIZA, un chatbot rogerien minimaliste (200 lignes de code) qui se contente de reformuler les phrases de l’utilisateur en questions. Effet stupéfiant : les gens lui prêtent de la compréhension. Weizenbaum, traumatisé, deviendra l’un des grands critiques de l’IA.
- 1969 : Minsky et Papert publient Perceptrons, qui montre les limites mathématiques du perceptron monocouche. Le livre tue le connexionnisme pour vingt ans.
- 1972 : Terry Winograd écrit SHRDLU, qui dialogue en anglais sur un monde de blocs. Démonstration éblouissante. On croit qu’on est tout près d’arriver.
Les promesses de l’époque sont énormes : Simon prédit en 1965 que « les machines seront capables, dans vingt ans, de faire tout travail qu’un homme peut faire ». On y est en 1985. On va voir ce que ça a donné.
5. 1973–1980 — le premier hiver
En 1973, le mathématicien britannique Sir James Lighthill est chargé par le Parlement britannique d’évaluer la recherche en IA. Son rapport est dévastateur : il reproche à l’IA son « échec total à atteindre ses objectifs grandioses » et identifie le mur — l’explosion combinatoire. Quand un problème grossit, le nombre de possibilités à explorer explose exponentiellement, et aucune machine, aussi puissante soit-elle, ne peut suivre.
Le Science Research Council britannique coupe massivement les financements. La DARPA américaine suit. Beaucoup de labos d’IA ferment ou se reconvertissent. C’est le premier hiver de l’IA.
Leçon : l’IA souffre d’un mal récurrent — la promesse excessive. Une fois la promesse non tenue, le retour de bâton est brutal. On va voir le scénario se rejouer.
6. 1980–1987 — les systèmes experts
Renaissance par un changement d’angle. Plutôt que de viser l’intelligence générale, on vise l’expertise étroite. Les systèmes experts se concentrent sur un domaine très restreint, dans lequel ils encodent des centaines voire des milliers de règles « si … alors … » fournies par des experts humains.
- MYCIN (Stanford, 1972-1976) : 600 règles, diagnostique les infections bactériennes. Précision diagnostique de 65 %, contre 42-62 % pour les médecins humains. Jamais déployé pour des raisons juridiques (qui est responsable d’une mauvaise décision médicale ?), mais l’effet de démonstration est massif.
- XCON (Digital Equipment Corporation, 1980) : configure des ordinateurs VAX. Économise à DEC environ 40 millions de dollars par an. C’est le premier système expert à dégager un ROI clair en entreprise.
- Boom industriel (1980-1985) : marché des systèmes experts à 1 milliard de dollars en 1985. Toutes les grandes entreprises s’équipent. Naissance d’un écosystème — Symbolics, LMI — autour de machines dédiées au langage Lisp.
7. 1987–1993 — le deuxième hiver
Et patatras. Les systèmes experts se révèlent fragiles : maintenance coûteuse (chaque changement de domaine demande un nouvel encodage manuel des règles), incapacité à généraliser, effet « de bord » dès qu’on sort du périmètre prévu. Et surtout : les machines Lisp dédiées sont rendues obsolètes par les PC standards d’IBM et d’Apple, qui, à coût équivalent, font aussi bien.
Le marché des machines Lisp s’effondre en 1987. La DARPA recoupe ses financements. Deuxième hiver de l’IA (1987-1993). Pendant ces années, on évite même de prononcer le mot « IA » dans les demandes de financement — on parle de « systèmes informatiques avancés », de « techniques d’apprentissage statistique ». L’IA est devenue tabou.
8. 1993–2012 — la lente renaissance statistique
Pendant l’hiver, des choses bougent en sous-main. Trois mouvements convergent.
Premier mouvement — le retour des réseaux de neurones. En 1986, Rumelhart, Hinton et Williams publient l’algorithme de rétropropagation du gradient (backpropagation), qui rend possible l’apprentissage de réseaux de neurones multicouches. Personne ne s’en rend tout de suite compte, mais le mur posé par Minsky en 1969 vient d’être contourné. Yann LeCun applique la méthode aux réseaux convolutifs, et lit des chèques bancaires automatiquement dès 1993.
Deuxième mouvement — les méthodes statistiques. SVM, forêts aléatoires, modèles bayésiens. L’IA cesse d’être un projet philosophique et devient un sous-domaine du machine learning, lui-même sous-domaine de la statistique appliquée. C’est moins glorieux mais ça marche.
Troisième mouvement — les coups d’éclat. En 1997, Deep Blue (IBM) bat Garry Kasparov aux échecs. Pas d’apprentissage : c’est de la force brute (200 millions de positions par seconde). Mais l’effet symbolique est colossal. En 2011, Watson (IBM) gagne à Jeopardy!, démontrant qu’une machine peut comprendre du langage naturel mal formulé.
Pendant ces vingt ans, l’IA s’est transformée silencieusement. Elle a abandonné l’ambition de copier la pensée pour épouser les données. Et elle attend une dernière révolution.
9. 2012–2017 — la révolution deep learning
Septembre 2012, compétition ImageNet. Une équipe de l’Université de Toronto — Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever — présente AlexNet, un réseau de neurones convolutif profond de 8 couches, entraîné sur des GPU de jeux vidéo. Résultat : il bat le second concurrent de 10 points (15,3 % d’erreur contre 26,2 %). Du jamais vu.
À partir de ce moment, le deep learning balaye tout. Reconnaissance d’images (2012), reconnaissance vocale (2013), traduction automatique (2014). Google, Facebook, Microsoft, Baidu rachètent ou recrutent en masse. Hinton entre chez Google. LeCun chez Facebook.
Mars 2016 : AlphaGo (DeepMind) bat Lee Sedol, l’un des meilleurs joueurs de Go du monde, 4 parties à 1. Le coup 37 de la deuxième partie est qualifié de « inhumain mais beau » par les experts. Pour la première fois, une machine ne se contente pas d’imiter le jeu humain — elle invente un coup qu’aucun humain n’aurait joué.
10. 2017–2022 — les Transformers et la naissance des LLM
12 juin 2017 : huit chercheurs de Google publient un papier intitulé « Attention Is All You Need ». Ils y proposent une nouvelle architecture de réseau de neurones — le Transformer — qui remplace les coûteux mécanismes récurrents (RNN, LSTM) par un mécanisme unique : l’attention. Pour chaque mot d’une séquence, le modèle apprend à pondérer l’importance de tous les autres mots de la séquence — y compris loin en arrière.
C’est l’innovation la plus importante de l’IA moderne. Tous les LLM actuels — GPT, Claude, Gemini, Llama, Mistral — sont des Transformers (ou des descendants directs). Le papier a, à ce jour, plus de 100 000 citations.
- Juin 2018 : OpenAI publie GPT-1 (117 millions de paramètres). Personne ne s’en émeut.
- Février 2019 : GPT-2 (1,5 milliard). OpenAI le retient quelques mois « par souci de sécurité ». Ça intrigue.
- Mai 2020 : GPT-3 (175 milliards). Effet stupéfiant pour qui sait y accéder.
- 30 novembre 2022 : OpenAI sort ChatGPT, interface gratuite et grand public sur GPT-3.5. Un million d’utilisateurs en cinq jours. Cent millions en deux mois. Aucun produit numérique de l’histoire n’avait grandi aussi vite. C’est ce moment-là, en novembre 2022, que le grand public croit être « la naissance de l’IA » — alors qu’on est en réalité au bout d’une histoire de 380 ans.
11. 2023–2026 — l’âge de la généralisation
Trois ans qui ont tout reconfiguré.
- Mars 2023 : GPT-4. Multimodal (texte + image). Performances « niveau étudiant brillant » sur la plupart des examens standardisés.
- 2024 : Claude 3 (Anthropic), Gemini 1.5 (Google), Llama 3 (Meta), Mistral Large (Mistral AI, France). Course aux contextes longs (1 million de tokens), à la latence, au prix. Apparition de l’IA agentique — modèles qui agissent (lisent un fichier, ouvrent un navigateur, écrivent du code, exécutent des commandes) plutôt que de seulement répondre.
- 2024 : AlphaFold 3 (DeepMind) prédit la structure 3D des protéines avec une précision quasi-expérimentale. Prix Nobel de chimie 2024 pour Demis Hassabis et John Jumper.
- 2025 : AI Action Summit à Paris (10-11 février 2025). Tournant politique : la France et l’Europe affichent une volonté de troisième voie entre laisser-faire américain et contrôle chinois.
- 2026 (mai) : on est dans l’âge où l’IA générative entre vraiment dans les foyers, les bureaux, et — avec retard et précautions — les écoles. C’est ce qui occupe l’École française aujourd’hui : voir le Cadre d’usage de l’IA en éducation, juin 2025, et la veille DRANE sur ce blog.
12. Alors, la Pascaline est-elle une IA ?
Réponse argumentée, en deux temps.
Au sens technique : non. Une IA, dans la définition héritée de Dartmouth (et largement réaffirmée depuis), c’est un système qui apprend, qui s’adapte, qui produit des comportements non explicitement programmés. La Pascaline ne fait rien de tout cela. Elle exécute mécaniquement un algorithme fixe — l’addition à retenue. Elle n’apprend pas, elle ne se trompe pas, elle ne « comprend » rien. Si on accepte de classer la Pascaline comme IA, alors un boulier l’est aussi, et le mot perd son sens.
Au sens conceptuel : oui — c’est l’ancêtre direct. La Pascaline est, dans l’histoire des techniques, le premier objet qui externalise mécaniquement une opération mentale humaine. Avant elle, calculer était un acte de l’esprit. Après elle, c’est un acte qu’une machine peut faire à votre place. Sans ce déplacement-là, toute l’histoire de l’IA est impensable. La Pascaline pose la question — « qu’est-ce qu’on peut faire faire à une machine ? » — qui n’a plus jamais été refermée depuis. Babbage, Turing, McCarthy, Hinton, Vaswani répondent tous, à leur tour, à la question que Pascal a ouverte en 1642.
Donc : si un élève de 4ᵉ vous demande « la Pascaline, c’est de l’IA ou pas ? », la bonne réponse est : « Non. Mais c’est ce sans quoi l’IA n’aurait pas pu naître. » C’est plus juste, et c’est aussi plus intéressant.
Ce que cette histoire change pour l’École
Trois choses, à mes yeux.
1. Dégonfler le mythe du « surgissement ». L’idée que l’IA serait apparue en novembre 2022 avec ChatGPT est fausse, et elle est toxique : elle fait croire qu’on est devant un phénomène surnaturel. Or l’IA est le résultat de 380 ans d’histoire des techniques, dont chaque étape s’explique. Ce n’est pas une magie, c’est un héritage cumulatif. Comprendre ça remet de la rationalité dans la conversation.
2. Voir les hivers comme des leçons. Deux fois (1973 et 1987), l’IA a promis ce qu’elle ne savait pas tenir, et la chute a été brutale. On vit aujourd’hui un troisième été — peut-être le bon, peut-être pas. Les chefs d’établissement et les enseignants ont tout intérêt à écouter cette musique-là plutôt que les promesses des vendeurs. La sobriété de Stéphane Mallat au Collège de France — « on ne sait toujours pas vraiment pourquoi ces machines fonctionnent » — est précisément le bon ton.
3. Comprendre la trajectoire pour situer l’École. L’histoire de l’IA, c’est l’histoire de ce qu’on a réussi à externaliser. Le calcul (Pascaline), la logique (Boole, Turing), l’expertise étroite (MYCIN), la perception (AlexNet), le langage (GPT). À chaque étape, ce qui restait « proprement humain » a reculé d’un cran. La question pour l’École est donc claire : quelles sont les compétences qui n’ont pas reculé, et qui ne reculeront pas ? Le jugement, la délibération, la décision en valeurs conflictuelles, la relation. C’est précisément ce que j’écrivais sur la taylorisation discrète, et ce que dégagent les rapports sur l’IA et les métiers de demain.
L’École qui a compris cette histoire ne sera pas paniquée. Elle sera outillée pour décider ce qu’elle continue d’enseigner précisément parce que ça résiste à 380 ans de tentatives d’automatisation.
Et ça, en 1642, c’est exactement ce que cherchait Pascal en regardant son père s’épuiser sur ses calculs : libérer du temps mental pour ce qui en valait vraiment la peine. La boucle est bouclée.
Pour aller plus loin sur le site :
- Et si l’intelligence artificielle n’était pas si artificielle ? — la leçon de Stéphane Mallat au Collège de France.
- Qu’est-ce que l’intelligence ? — la définition introuvable.
- Le bureau, l’écran, le statut — la taylorisation discrète.
- IA et métiers de demain — la triangulation LaborIA / OCDE / Human Technology Foundation.
Sources (sélection) :
- Wikipédia FR, Histoire de l’intelligence artificielle.
- Wikipédia FR, Conférence de Dartmouth.
- Wikipédia EN, AI Winter, Pascaline, Attention Is All You Need.
- Vaswani et al., « Attention Is All You Need », arXiv 1706.03762, juin 2017.
- Sénat (Rapport d’information), « ChatGPT, et après ? Bilan et perspectives de l’intelligence artificielle », 2024.
- Musée des Arts et Métiers, L’héritage mathématique de Blaise Pascal.