Fenêtre de contexte (context window) : définition et impact sur les modèles IA
La fenêtre de contexte (en anglais context window) d’un modèle de langage (LLM) est la quantité maximale de texte que le modèle peut lire et traiter simultanément, mesurée en tokens. Tout le contenu présent dans la fenêtre de contexte — l’historique de la conversation, les documents partagés, les instructions système — est visible par le modèle lors de la génération de sa réponse. Ce qui dépasse cette limite est définitivement exclu du traitement.
Fenêtres de contexte des principaux modèles en 2026
| Modèle | Fenêtre de contexte | Équivalent approximatif |
|---|---|---|
| Claude 3.5 / Claude 3 Opus | 200 000 tokens | ~150 000 mots / un roman entier |
| GPT-4o | 128 000 tokens | ~96 000 mots |
| Gemini 1.5 Pro | 1 000 000 tokens | ~750 000 mots (cas exceptionnel) |
| Mistral Large | 32 000 tokens | ~24 000 mots |
Ce que contient la fenêtre de contexte
La fenêtre de contexte d’une session Claude inclut l’ensemble du contenu traité depuis le début de la conversation :
- Le system prompt — les instructions données à Claude par l’opérateur ou l’utilisateur avant la conversation
- L’historique de la conversation — tous les messages échangés depuis le début de la session
- Les documents partagés — PDFs, fichiers texte, code uploadé dans la session
- Les résultats d’outils — réponses d’APIs, résultats de recherches web, données extraites via MCP
Implications pratiques de la fenêtre de contexte
- Conversations longues — dans une conversation très longue, les échanges les plus anciens peuvent sortir de la fenêtre et devenir invisibles pour le modèle. Claude ne se souvient pas de ce qui a dépassé la limite
- Analyse de documents longs — une fenêtre de 200 000 tokens permet à Claude d’analyser un rapport de 500 pages en entier en une seule requête
- Coût de l’inférence — plus la fenêtre de contexte est remplie, plus l’inférence coûte en temps de calcul et en tokens facturés via l’API
- Compaction de contexte — Claude Code utilise une technique de compaction automatique pour résumer les échanges anciens et libérer de la place dans la fenêtre sans perdre les informations essentielles
Vous souhaitez maîtriser le fonctionnement de Claude et optimiser vos sessions ?
M-Twice propose deux formations dédiées à Claude — des fondamentaux jusqu’aux usages avancés.
C’est quoi la fenêtre de contexte d’un LLM ?
La fenêtre de contexte est la quantité maximale de texte (mesurée en tokens) qu’un modèle de langage peut lire et traiter en une seule fois. Elle inclut l’historique de la conversation, les documents partagés et les instructions système. Claude dispose d’une fenêtre de 200 000 tokens (~150 000 mots). Ce qui dépasse cette limite est invisible pour le modèle.
Que se passe-t-il quand la fenêtre de contexte est pleine ?
Quand la fenêtre de contexte est pleine, le modèle ne peut plus traiter de nouveaux tokens sans en éliminer des anciens. Les échanges les plus anciens de la conversation sortent de la fenêtre et deviennent invisibles pour le modèle — il ne peut plus y faire référence. Dans Claude Code, un système de compaction automatique résume les échanges anciens pour libérer de l’espace tout en préservant les informations essentielles.
Pour aller plus loin
- Tokens — l’unité de mesure de la fenêtre de contexte
- LLM — le modèle de langage dont la fenêtre de contexte définit les capacités
- Inférence — le calcul impacté par la taille de la fenêtre de contexte
- Notre expertise SEO — usage de Claude pour l’optimisation de contenus

