Token IA

Illustration minimaliste sur fond bleu avec texte "Token IA", définition liée à la catégorie IA & Data du glossaire marketing de M-Twice

C’est quoi un token en IA ?

En intelligence artificielle, un token est l’unité de base avec laquelle un LLM traite le texte. Ce n’est ni exactement un mot, ni une lettre — c’est un fragment de texte défini par l’algorithme de découpage (tokenisation) du modèle. En pratique, 1 000 tokens correspondent à environ 750 mots en anglais, ou 600-700 mots en français (les langues non-latines consomment généralement plus de tokens par mot).

Comprendre les tokens est essentiel dès que vous utilisez l’API d’un LLM, car c’est cette unité qui détermine directement le coût de chaque requête et les limites de traitement.

Comment se découpe un texte en tokens ?

La tokenisation varie selon les modèles, mais voici des exemples représentatifs avec GPT-4 et Claude :

TexteTokens approximatifsNote
bonjour1 tokenMot court et courant
intelligence artificielle3-4 tokensDeux mots, mais “artificielle” peut être découpé
référencement naturel4-5 tokensLes accents ajoutent souvent des tokens
https://m-twice.com/definition/8-10 tokensLes URLs sont coûteuses en tokens
Un paragraphe de 100 mots~130-150 tokensLe français consomme ~30% plus de tokens que l’anglais

Tokens d’entrée vs tokens de sortie

Dans toute interaction avec un LLM via API, il y a deux types de tokens facturés séparément :

TypeCe que ça représentePrix relatif
Tokens d’entrée (input)Votre prompt + le contexte envoyé au modèle (instructions, historique, documents…)Moins cher
Tokens de sortie (output)La réponse générée par le modèlePlus cher (3 à 5× le prix de l’entrée selon les modèles)

Exemple avec Claude Sonnet 4.6 : $3 pour 1 million de tokens d’entrée, $15 pour 1 million de tokens de sortie. Un échange de 1 000 tokens d’entrée + 500 tokens de sortie coûte environ $0,003 + $0,0075 = moins d’un centime. C’est imperceptible à l’unité, mais cela se cumule vite à grande échelle.

La fenêtre de contexte : la limite en tokens

Chaque LLM a une fenêtre de contexte (context window) — le nombre maximum de tokens qu’il peut traiter en une seule fois, entrée et sortie combinées. Au-delà, il “oublie” les informations les plus anciennes.

ModèleFenêtre de contexteÉquivalent approximatif
Claude Sonnet 4.6200 000 tokens~150 000 mots — plusieurs livres
Claude Opus 4.6200 000 tokens (1M en bêta)~150 000 mots (750 000 en bêta)
GPT-4o128 000 tokens~96 000 mots
Mistral Large128 000 tokens~96 000 mots

Une fenêtre de contexte large est cruciale pour les tâches qui nécessitent d’analyser de longs documents — rapports annuels, bases de code complètes, longues conversations de support client.

Comment optimiser sa consommation de tokens ?

Pour les entreprises qui utilisent les LLMs à grande échelle, la gestion des tokens est un levier de réduction des coûts significatif :

  • Prompts concis : chaque mot superflu dans votre prompt coûte des tokens. Un prompt de 500 tokens bien structuré vaut mieux qu’un prompt de 2 000 tokens verbeux
  • Prompt caching : les instructions système répétées à chaque requête peuvent être mises en cache — Claude réduit le coût des tokens mis en cache jusqu’à 90%
  • Batch processing : les tâches non urgentes peuvent être traitées en mode batch avec une réduction de 50% sur le prix des tokens
  • Choix du bon modèle : utiliser Haiku pour les tâches simples (1$/MTok) plutôt que Opus pour toutes les requêtes (5$/MTok) peut diviser la facture par 5 sans perte de qualité sur les tâches simples
  • Limiter les tokens de sortie : spécifier une longueur maximale de réponse évite les sorties verboses inutilement longues

Pour les équipes e-commerce qui génèrent des milliers de fiches produits ou de réponses client via IA, une architecture RAG bien conçue permet de n’envoyer que les passages pertinents au LLM plutôt que l’intégralité d’une base de connaissances — réduisant considérablement la consommation de tokens d’entrée.

Vous intégrez des LLMs dans vos processus e-commerce ?

M-Twice vous aide à concevoir des architectures IA optimisées — bon modèle, bonne fenêtre de contexte, bonne stratégie de tokens — pour maximiser la performance et maîtriser les coûts.

Découvrir notre expertise IA →

L’EXPERTISE M-TWICE
Chez M-Twice, nous accompagnons les entreprises et indépendants sur ce type de problématiques au quotidien.

Découvrez notre expertise d'
Agence IA e-commerce
Scroll
M-twice
Privacy Overview

This website uses cookies so that we can provide you with the best user experience possible. Cookie information is stored in your browser and performs functions such as recognising you when you return to our website and helping our team to understand which sections of the website you find most interesting and useful.