L’intelligence artificielle générative est entrée dans nos usages quotidiens en quelques années à peine, mais elle a apporté avec elle un vocabulaire technique parfois opaque. Token, prompt, fine-tuning, hallucination, embedding, fenêtre de contexte… autant de termes qui circulent dans les articles, les démonstrations et les conversations professionnelles, sans qu’on sache toujours précisément ce qu’ils recouvrent. Cet article propose un tour d’horizon clair des notions essentielles pour comprendre comment fonctionnent les grands modèles de langage et dialoguer efficacement avec eux.
Les grands modèles de langage (LLM)
Tout commence par les LLM, acronyme de Large Language Models, c’est-à-dire les grands modèles de langage. Ce sont des systèmes d’intelligence artificielle entraînés sur d’énormes quantités de texte (livres, articles, code informatique, conversations) pour apprendre à prédire le mot suivant dans une séquence. Cette tâche apparemment simple, répétée des milliards de fois pendant l’entraînement, donne naissance à des modèles capables de rédiger, traduire, résumer, raisonner et coder. Claude, ChatGPT, Gemini ou Mistral sont des LLM.
Ces modèles reposent presque tous sur une architecture appelée Transformer, introduite par Google en 2017. Le Transformer utilise un mécanisme dit d’attention qui permet au modèle de pondérer l’importance relative de chaque mot d’une phrase par rapport aux autres. C’est cette architecture qui a rendu possibles les performances actuelles. La taille d’un modèle se mesure en paramètres, ces millions ou milliards de valeurs numériques qui constituent sa « mémoire » apprise. Un modèle moderne contient typiquement entre quelques milliards et plusieurs centaines de milliards de paramètres, parfois appelés poids (weights).
Le token, unité fondamentale
Le terme token revient dans toutes les conversations sur l’IA, et pour cause : c’est l’unité de base avec laquelle les modèles travaillent. Contrairement à ce qu’on pourrait croire, un LLM ne traite pas le texte caractère par caractère, ni même mot par mot. Il découpe le texte en tokens, qui sont des fragments de mots. En français, un token correspond en moyenne à environ trois ou quatre caractères. Le mot « bonjour » peut former un seul token, tandis qu’un mot rare ou technique comme « anticonstitutionnellement » sera découpé en plusieurs tokens.
Cette opération de découpage s’appelle la tokenisation. Elle est effectuée par un tokenizer, un algorithme spécifique à chaque modèle. Pourquoi est-ce important ? Parce que tout, dans l’utilisation d’un LLM, se mesure en tokens : la longueur des messages que vous pouvez envoyer, la longueur des réponses, le coût d’utilisation via une API, et la fenêtre de contexte du modèle. Une règle approximative pour le français retient qu’environ 750 mots équivalent à 1000 tokens. Comprendre la tokenisation, c’est comprendre pourquoi un modèle peut parfois mal écrire un mot précis (chaque token est manipulé comme une unité opaque) ou pourquoi le coût d’une requête varie selon la langue utilisée.
Le prompt et l’art de le formuler
Le prompt désigne tout simplement l’instruction ou la question que vous envoyez au modèle. C’est le texte d’entrée qui déclenche la génération d’une réponse. Mais cette définition technique cache une réalité plus subtile : la qualité de la réponse dépend très largement de la qualité du prompt. D’où l’émergence du prompt engineering, l’ingénierie des prompts, qui regroupe les techniques pour formuler des requêtes efficaces.
On distingue généralement deux catégories. Le system prompt (ou prompt système) est une instruction de haut niveau qui définit le rôle, le ton et les contraintes du modèle pour toute une conversation. Il est invisible pour l’utilisateur final dans la plupart des interfaces. Le user prompt est le message envoyé par l’utilisateur lors de chaque tour de conversation.
Plusieurs techniques de prompting méritent d’être connues. Le zero-shot prompting consiste à poser une question sans donner d’exemple : on demande directement au modèle d’effectuer la tâche. Le few-shot prompting consiste au contraire à fournir quelques exemples de la sortie attendue avant de poser la véritable question, ce qui guide le modèle vers le format souhaité. Le chain-of-thought (chaîne de pensée) demande au modèle de raisonner étape par étape avant de donner sa réponse finale, ce qui améliore considérablement ses performances sur les problèmes complexes, notamment mathématiques ou logiques.
La fenêtre de contexte
La fenêtre de contexte (context window) désigne la quantité maximale de tokens qu’un modèle peut traiter en une seule fois, en comptant à la fois ce que vous lui envoyez et ce qu’il génère en réponse. Cette limite est cruciale parce qu’elle détermine ce que le modèle « voit » à un instant donné. Au-delà, le modèle ne peut plus prendre en compte d’information.
Les premiers GPT avaient des fenêtres de quelques milliers de tokens. Les modèles actuels offrent souvent 128 000, 200 000, voire un million de tokens, ce qui permet d’analyser un livre entier ou de longs corpus documentaires en une seule requête. Il faut toutefois nuancer : avoir une grande fenêtre de contexte ne garantit pas que le modèle utilise efficacement toute l’information qui s’y trouve. Des études montrent que les performances peuvent se dégrader pour les éléments situés au milieu d’un long contexte, phénomène parfois appelé lost in the middle.
Une notion proche est celle de mémoire. Par défaut, un LLM n’a aucune mémoire d’une conversation à l’autre : chaque session repart de zéro. Pour simuler une continuité, certaines plateformes (dont Claude) implémentent un système de mémoire qui stocke des informations sur l’utilisateur entre les sessions et les réinjecte dans le contexte au moment opportun.
Température, top-p et autres paramètres de génération
Quand un LLM génère du texte, il ne choisit pas le mot suivant de façon déterministe. Il calcule pour chaque token possible une probabilité, puis effectue un tirage. Plusieurs paramètres permettent de contrôler ce processus.
La température est le plus connu. Elle varie typiquement entre 0 et 2. Une température basse (proche de 0) rend le modèle plus déterministe et conservateur : il choisit presque toujours le token le plus probable. Une température élevée (au-delà de 1) rend les sorties plus créatives mais aussi plus erratiques. Pour une tâche factuelle ou du code, on utilise une température basse. Pour de la création littéraire ou du brainstorming, on l’augmente.
Le top-p (ou nucleus sampling) est une autre méthode de sélection. Au lieu de tirer parmi tous les tokens, le modèle ne considère que ceux dont les probabilités cumulées atteignent un seuil donné, par exemple 0,9. Cela permet d’éviter les tokens trop improbables tout en gardant de la diversité. Le top-k fonctionne sur le même principe mais en limitant le tirage aux k tokens les plus probables.
Entraînement, inférence et fine-tuning
Le cycle de vie d’un LLM se découpe en deux grandes phases. L’entraînement (training) est l’opération initiale, extrêmement coûteuse en calcul, qui consiste à faire ingérer au modèle des téraoctets de texte pour ajuster ses paramètres. Il dure des semaines ou des mois sur des fermes de GPU et coûte des millions d’euros pour les plus grands modèles.
L’inférence désigne l’utilisation du modèle déjà entraîné pour générer une réponse à une requête. C’est ce qui se passe à chaque fois que vous discutez avec un chatbot. L’inférence est beaucoup moins coûteuse que l’entraînement, mais elle reste consommatrice de ressources, ce qui explique le coût des API.
Entre les deux, on trouve le fine-tuning (ajustement fin). Il s’agit de prendre un modèle déjà entraîné et de poursuivre son entraînement sur un corpus plus restreint et spécialisé, pour l’adapter à un domaine ou à un style particulier. Une variante très répandue est le RLHF (Reinforcement Learning from Human Feedback), apprentissage par renforcement à partir de retours humains, qui consiste à affiner le modèle en utilisant des évaluations humaines pour lui apprendre quelles réponses sont préférables.
RAG et embeddings
Les LLM ont un défaut majeur : leurs connaissances sont figées à la date de fin de leur entraînement et ils peuvent inventer des informations. Le RAG (Retrieval Augmented Generation, génération augmentée par recherche) résout en partie ce problème. Le principe est simple : avant de répondre, le système va chercher dans une base documentaire les passages les plus pertinents pour la question, puis les injecte dans le prompt du modèle. La réponse s’appuie alors sur des sources fraîches et vérifiables, et non plus uniquement sur la mémoire du modèle.
Pour effectuer cette recherche, on utilise des embeddings, parfois traduits par « plongements vectoriels ». Un embedding est une représentation numérique d’un texte sous forme de vecteur de plusieurs centaines ou milliers de dimensions. Deux textes au sens proche auront des embeddings proches dans cet espace vectoriel. C’est ce qui permet de faire de la recherche sémantique : on calcule l’embedding de la question, on cherche les embeddings de documents les plus proches géométriquement, et on récupère les textes correspondants. Les embeddings sont stockés dans des bases vectorielles (Pinecone, Weaviate, ChromaDB, pgvector pour PostgreSQL).
Les hallucinations
L’hallucination est probablement le défaut le plus discuté des LLM. Il désigne le fait qu’un modèle produise une affirmation fausse mais énoncée avec assurance, comme inventer une citation, attribuer un livre à un mauvais auteur, ou générer des références bibliographiques fictives. Ce phénomène n’est pas un bug mais une conséquence directe du fonctionnement des modèles : ils sont entraînés à produire du texte plausible, pas du texte vrai. La distinction entre les deux n’existe pas pour eux.
Plusieurs stratégies réduisent les hallucinations sans les éliminer totalement : utiliser le RAG pour ancrer les réponses dans des sources, demander au modèle de citer ses sources, lui faire raisonner étape par étape, ou tout simplement vérifier les informations sensibles. La règle d’or reste de ne jamais utiliser la sortie d’un LLM comme source de vérité sans contrôle, particulièrement dans les contextes professionnels ou juridiques.
Multimodalité
Un modèle est dit multimodal lorsqu’il peut traiter plusieurs types de données en entrée ou en sortie : texte, images, audio, vidéo. Les modèles les plus récents acceptent des images directement dans le prompt et peuvent décrire leur contenu, lire un graphique, transcrire un texte manuscrit ou analyser une capture d’écran. Certains génèrent des images (DALL-E, Midjourney, Stable Diffusion) ou de la voix synthétique. La frontière entre LLM et modèles génératifs visuels devient progressivement plus floue.
Agents, tools et MCP
Un agent est un LLM auquel on a donné la capacité d’agir sur son environnement, et non plus seulement de produire du texte. Concrètement, un agent peut décider d’appeler des outils externes : faire une recherche web, lire un fichier, envoyer un mail, exécuter du code. C’est le LLM lui-même qui choisit l’outil approprié en fonction de la requête, à partir d’une liste qu’on lui a fournie. Cette capacité est appelée tool use ou function calling.
Pour standardiser la manière dont les LLM se connectent aux outils et aux sources de données, Anthropic a introduit le MCP (Model Context Protocol), un protocole ouvert qui définit comment un modèle peut découvrir et appeler des serveurs externes. Un serveur MCP peut exposer un agenda, une base de données, un service de mail, un dépôt Git, et le modèle saura interagir avec sans intégration sur mesure.
Sécurité : jailbreak et prompt injection
Deux notions de sécurité sont devenues incontournables. Le jailbreak désigne les techniques utilisées pour faire sortir un modèle de ses garde-fous (guardrails), c’est-à-dire des règles qui l’empêchent normalement de produire des contenus dangereux ou non éthiques. Cela passe par des prompts élaborés qui embarquent le modèle dans un jeu de rôle, exploitent une formulation détournée, ou exploitent une faille de sa logique d’alignement.
La prompt injection est une attaque différente, où un acteur malveillant cache des instructions dans un contenu externe (page web, document, mail) que le modèle va lire dans le cadre normal de son fonctionnement. Si le modèle traite ce contenu sans précaution, il peut suivre les instructions cachées et exfiltrer des données, exécuter des actions non sollicitées ou produire des sorties manipulées. Ce risque est particulièrement aigu pour les agents qui ont accès à des outils sensibles. Les défenses passent par une stricte séparation entre les instructions de l’utilisateur et les contenus externes, et par une demande systématique de confirmation pour les actions sensibles.
Latence, throughput et coût
Du côté de l’infrastructure, trois indicateurs reviennent souvent. La latence est le délai entre l’envoi d’une requête et le début de la réponse, mesurée en millisecondes ou secondes. Le throughput (débit) est la quantité de tokens générés par seconde. Le time-to-first-token (TTFT) mesure le temps avant le premier token reçu, particulièrement important pour les interfaces conversationnelles où l’utilisateur attend une réaction visible. Le coût par token (en entrée et en sortie, les deux étant facturés différemment) permet de comparer économiquement les modèles. Un modèle plus puissant n’est pas toujours pertinent : pour des tâches simples, un petit modèle rapide et bon marché fait souvent l’affaire.
Distillation, quantification et modèles ouverts
Pour rendre les LLM utilisables sur des machines moins puissantes, plusieurs techniques d’optimisation existent. La distillation consiste à entraîner un petit modèle (l’élève) à imiter les réponses d’un grand modèle (le professeur), ce qui permet d’obtenir des performances proches avec une fraction des ressources. La quantification réduit la précision numérique des paramètres (de 32 bits à 8 bits, voire 4 bits), ce qui divise la mémoire nécessaire et accélère l’inférence, au prix d’une légère perte de qualité.
Ces techniques ont permis l’essor des modèles ouverts (open-weight models) comme Llama, Mistral, Qwen, qu’on peut télécharger et exécuter localement sur un ordinateur personnel ou un serveur d’entreprise, à l’aide d’outils comme Ollama ou LM Studio. Ils s’opposent aux modèles propriétaires (Claude, GPT, Gemini) accessibles uniquement via API.
En résumé
Le vocabulaire de l’IA générative s’organise autour de quelques concepts centraux : le modèle (LLM, Transformer, paramètres) traite du texte découpé en tokens, à l’intérieur d’une fenêtre de contexte limitée. On l’interroge via un prompt, et son comportement est ajusté par des paramètres comme la température. Pour étendre ses capacités, on utilise le fine-tuning, le RAG avec des embeddings, ou des outils via le protocole MCP dans une logique d’agent. Il reste à se méfier des hallucinations, des prompt injections et à comprendre les arbitrages entre latence, coût et qualité.
Maîtriser ce vocabulaire, ce n’est pas seulement suivre la mode : c’est se donner les moyens de comparer les outils, d’écrire de meilleurs prompts, de comprendre les coûts d’usage, et d’adopter une posture critique face aux réponses générées. Dans un paysage qui évolue de mois en mois, c’est le socle indispensable pour rester maître de ses usages.