Token IA

C’est quoi un token en IA ?

En intelligence artificielle, un token est l’unité de base avec laquelle un LLM traite le texte. Ce n’est ni exactement un mot, ni une lettre — c’est un fragment de texte défini par l’algorithme de découpage (tokenisation) du modèle. En pratique, 1 000 tokens correspondent à environ 750 mots en anglais, ou 600-700 mots en français (les langues non-latines consomment généralement plus de tokens par mot).

Comprendre les tokens est essentiel dès que vous utilisez l’API d’un LLM, car c’est cette unité qui détermine directement le coût de chaque requête et les limites de traitement.

Comment se découpe un texte en tokens ?

La tokenisation varie selon les modèles, mais voici des exemples représentatifs avec GPT-4 et Claude :

Texte	Tokens approximatifs	Note
`bonjour`	1 token	Mot court et courant
`intelligence artificielle`	3-4 tokens	Deux mots, mais “artificielle” peut être découpé
`référencement naturel`	4-5 tokens	Les accents ajoutent souvent des tokens
`https://m-twice.com/definition/`	8-10 tokens	Les URLs sont coûteuses en tokens
Un paragraphe de 100 mots	~130-150 tokens	Le français consomme ~30% plus de tokens que l’anglais

Tokens d’entrée vs tokens de sortie

Dans toute interaction avec un LLM via API, il y a deux types de tokens facturés séparément :

Type	Ce que ça représente	Prix relatif
Tokens d’entrée (input)	Votre prompt + le contexte envoyé au modèle (instructions, historique, documents…)	Moins cher
Tokens de sortie (output)	La réponse générée par le modèle	Plus cher (3 à 5× le prix de l’entrée selon les modèles)

Exemple avec Claude Sonnet 4.6 : $3 pour 1 million de tokens d’entrée, $15 pour 1 million de tokens de sortie. Un échange de 1 000 tokens d’entrée + 500 tokens de sortie coûte environ $0,003 + $0,0075 = moins d’un centime. C’est imperceptible à l’unité, mais cela se cumule vite à grande échelle.

La fenêtre de contexte : la limite en tokens

Chaque LLM a une fenêtre de contexte (context window) — le nombre maximum de tokens qu’il peut traiter en une seule fois, entrée et sortie combinées. Au-delà, il “oublie” les informations les plus anciennes.

Modèle	Fenêtre de contexte	Équivalent approximatif
Claude Sonnet 4.6	200 000 tokens	~150 000 mots — plusieurs livres
Claude Opus 4.6	200 000 tokens (1M en bêta)	~150 000 mots (750 000 en bêta)
GPT-4o	128 000 tokens	~96 000 mots
Mistral Large	128 000 tokens	~96 000 mots

Une fenêtre de contexte large est cruciale pour les tâches qui nécessitent d’analyser de longs documents — rapports annuels, bases de code complètes, longues conversations de support client.

Comment optimiser sa consommation de tokens ?

Pour les entreprises qui utilisent les LLMs à grande échelle, la gestion des tokens est un levier de réduction des coûts significatif :

Prompts concis : chaque mot superflu dans votre prompt coûte des tokens. Un prompt de 500 tokens bien structuré vaut mieux qu’un prompt de 2 000 tokens verbeux
Prompt caching : les instructions système répétées à chaque requête peuvent être mises en cache — Claude réduit le coût des tokens mis en cache jusqu’à 90%
Batch processing : les tâches non urgentes peuvent être traitées en mode batch avec une réduction de 50% sur le prix des tokens
Choix du bon modèle : utiliser Haiku pour les tâches simples (1$/MTok) plutôt que Opus pour toutes les requêtes (5$/MTok) peut diviser la facture par 5 sans perte de qualité sur les tâches simples
Limiter les tokens de sortie : spécifier une longueur maximale de réponse évite les sorties verboses inutilement longues

Pour les équipes e-commerce qui génèrent des milliers de fiches produits ou de réponses client via IA, une architecture RAG bien conçue permet de n’envoyer que les passages pertinents au LLM plutôt que l’intégralité d’une base de connaissances — réduisant considérablement la consommation de tokens d’entrée.

Vous intégrez des LLMs dans vos processus e-commerce ?

M-Twice vous aide à concevoir des architectures IA optimisées — bon modèle, bonne fenêtre de contexte, bonne stratégie de tokens — pour maximiser la performance et maîtriser les coûts.

Découvrir notre expertise IA →

Pour aller plus loin

L’EXPERTISE M-TWICE

Chez M-Twice, nous accompagnons les entreprises et indépendants sur ce type de problématiques au quotidien.

Découvrez notre expertise d'
Agence IA e-commerce

Token IA

C’est quoi un token en IA ?

Comment se découpe un texte en tokens ?

Tokens d’entrée vs tokens de sortie

La fenêtre de contexte : la limite en tokens

Comment optimiser sa consommation de tokens ?

Catégories du glossaire

Dernières définitions enregistrées

TLD (Top Level Domain)

Top of the Funnel (TOFU)

Agence Web

Token IA

C’est quoi un token en IA ?

Comment se découpe un texte en tokens ?

Tokens d’entrée vs tokens de sortie

La fenêtre de contexte : la limite en tokens

Comment optimiser sa consommation de tokens ?

Catégories du glossaire

Dernières définitions enregistrées

Suivez-nous

TLD (Top Level Domain)

Top of the Funnel (TOFU)

Agence Web