C’est quoi un token en IA ?
En intelligence artificielle, un token est l’unité de base avec laquelle un LLM traite le texte. Ce n’est ni exactement un mot, ni une lettre — c’est un fragment de texte défini par l’algorithme de découpage (tokenisation) du modèle. En pratique, 1 000 tokens correspondent à environ 750 mots en anglais, ou 600-700 mots en français (les langues non-latines consomment généralement plus de tokens par mot).
Comprendre les tokens est essentiel dès que vous utilisez l’API d’un LLM, car c’est cette unité qui détermine directement le coût de chaque requête et les limites de traitement.
Comment se découpe un texte en tokens ?
La tokenisation varie selon les modèles, mais voici des exemples représentatifs avec GPT-4 et Claude :
| Texte | Tokens approximatifs | Note |
|---|---|---|
bonjour | 1 token | Mot court et courant |
intelligence artificielle | 3-4 tokens | Deux mots, mais “artificielle” peut être découpé |
référencement naturel | 4-5 tokens | Les accents ajoutent souvent des tokens |
https://m-twice.com/definition/ | 8-10 tokens | Les URLs sont coûteuses en tokens |
| Un paragraphe de 100 mots | ~130-150 tokens | Le français consomme ~30% plus de tokens que l’anglais |
Tokens d’entrée vs tokens de sortie
Dans toute interaction avec un LLM via API, il y a deux types de tokens facturés séparément :
| Type | Ce que ça représente | Prix relatif |
|---|---|---|
| Tokens d’entrée (input) | Votre prompt + le contexte envoyé au modèle (instructions, historique, documents…) | Moins cher |
| Tokens de sortie (output) | La réponse générée par le modèle | Plus cher (3 à 5× le prix de l’entrée selon les modèles) |
Exemple avec Claude Sonnet 4.6 : $3 pour 1 million de tokens d’entrée, $15 pour 1 million de tokens de sortie. Un échange de 1 000 tokens d’entrée + 500 tokens de sortie coûte environ $0,003 + $0,0075 = moins d’un centime. C’est imperceptible à l’unité, mais cela se cumule vite à grande échelle.
La fenêtre de contexte : la limite en tokens
Chaque LLM a une fenêtre de contexte (context window) — le nombre maximum de tokens qu’il peut traiter en une seule fois, entrée et sortie combinées. Au-delà, il “oublie” les informations les plus anciennes.
| Modèle | Fenêtre de contexte | Équivalent approximatif |
|---|---|---|
| Claude Sonnet 4.6 | 200 000 tokens | ~150 000 mots — plusieurs livres |
| Claude Opus 4.6 | 200 000 tokens (1M en bêta) | ~150 000 mots (750 000 en bêta) |
| GPT-4o | 128 000 tokens | ~96 000 mots |
| Mistral Large | 128 000 tokens | ~96 000 mots |
Une fenêtre de contexte large est cruciale pour les tâches qui nécessitent d’analyser de longs documents — rapports annuels, bases de code complètes, longues conversations de support client.
Comment optimiser sa consommation de tokens ?
Pour les entreprises qui utilisent les LLMs à grande échelle, la gestion des tokens est un levier de réduction des coûts significatif :
- Prompts concis : chaque mot superflu dans votre prompt coûte des tokens. Un prompt de 500 tokens bien structuré vaut mieux qu’un prompt de 2 000 tokens verbeux
- Prompt caching : les instructions système répétées à chaque requête peuvent être mises en cache — Claude réduit le coût des tokens mis en cache jusqu’à 90%
- Batch processing : les tâches non urgentes peuvent être traitées en mode batch avec une réduction de 50% sur le prix des tokens
- Choix du bon modèle : utiliser Haiku pour les tâches simples (1$/MTok) plutôt que Opus pour toutes les requêtes (5$/MTok) peut diviser la facture par 5 sans perte de qualité sur les tâches simples
- Limiter les tokens de sortie : spécifier une longueur maximale de réponse évite les sorties verboses inutilement longues
Pour les équipes e-commerce qui génèrent des milliers de fiches produits ou de réponses client via IA, une architecture RAG bien conçue permet de n’envoyer que les passages pertinents au LLM plutôt que l’intégralité d’une base de connaissances — réduisant considérablement la consommation de tokens d’entrée.
Vous intégrez des LLMs dans vos processus e-commerce ?
M-Twice vous aide à concevoir des architectures IA optimisées — bon modèle, bonne fenêtre de contexte, bonne stratégie de tokens — pour maximiser la performance et maîtriser les coûts.
