Constitutional AI

Constitutional AI : la méthode d’Anthropic pour aligner Claude sur des principes explicites

Le Constitutional AI (CAI) est une méthode d’alignement des modèles de langage développée par Anthropic et publiée en décembre 2022. Elle consiste à entraîner un modèle (notamment Claude) à évaluer et corriger ses propres réponses en se référant à un ensemble de principes explicites appelé “constitution”. L’objectif : produire un modèle plus sûr, plus honnête et plus utile, en codifiant des valeurs directement dans le processus d’entraînement plutôt qu’en s’appuyant uniquement sur des retours humains cas par cas.

Le problème que résout le Constitutional AI

La méthode standard pour aligner les LLMs sur les préférences humaines s’appelle le RLHF (Reinforcement Learning from Human Feedback) : des évaluateurs humains notent des paires de réponses, et le modèle apprend à reproduire les réponses préférées. Cette méthode fonctionne, mais présente des limites :

Elle est coûteuse : chaque comportement indésirable nécessite des exemples annotés manuellement
Elle est peu transparente : les critères d’évaluation des annotateurs ne sont pas toujours explicites ni cohérents
Elle est difficile à auditer : il est difficile de savoir précisément pourquoi le modèle adopte un comportement donné

Le Constitutional AI propose une alternative : rendre les principes explicites et permettre au modèle de s’auto-évaluer.

Comment fonctionne le Constitutional AI ?

Le processus CAI se déroule en deux phases principales :

Phase 1 : Critique et révision supervisée : le modèle génère une réponse à un prompt, puis est invité à critiquer cette réponse en se référant à un principe de la constitution (ex : “cette réponse est-elle honnête ?”, “cette réponse pourrait-elle causer du tort ?”), puis à la réviser
Phase 2 : RLAIF (Reinforcement Learning from AI Feedback) : un modèle IA (et non des humains) évalue des paires de réponses en se référant à la constitution, et ces évaluations servent à entraîner le modèle final par renforcement

La “constitution” de Claude

La constitution d’Anthropic est un ensemble de principes directeurs inspirés de sources variées : la Déclaration universelle des droits de l’homme, les principes d’Apple pour les développeurs, les valeurs publiées par DeepMind, et des principes propres à Anthropic. Elle guide Claude pour être à la fois utile (helpful), inoffensif (harmless) et honnête (honest) : les trois piliers du modèle HHH d’Anthropic.

Vous souhaitez comprendre comment Claude est conçu et aligné sur des valeurs explicites ?

M-Twice propose deux formations dédiées à Claude : du fonctionnement fondamental du modèle jusqu’aux usages avancés.

Formation Claude Fondamentaux →
Formation Claude Marketing Digital →

C’est quoi le Constitutional AI ?

Le Constitutional AI est une méthode d’alignement des LLMs développée par Anthropic. Elle consiste à entraîner le modèle à évaluer et corriger ses propres réponses en se référant à un ensemble de principes explicites (une “constitution”). L’objectif est de produire un modèle plus sûr et plus honnête, en codifiant des valeurs directement dans le processus d’entraînement, sans dépendre uniquement d’annotateurs humains pour chaque comportement indésirable.

Quelle différence entre Constitutional AI et RLHF ?

Le RLHF (Reinforcement Learning from Human Feedback) utilise des évaluateurs humains qui notent des paires de réponses pour entraîner le modèle. Le Constitutional AI remplace partiellement ces évaluateurs humains par le modèle lui-même : il s’auto-évalue en se référant à des principes explicites (la constitution), puis un modèle IA note les paires de réponses (RLAIF). Le CAI est plus transparent (les critères sont explicites) et moins coûteux en annotation humaine que le RLHF pur.

Pour aller plus loin

LLM : le modèle de langage que le Constitutional AI cherche à aligner
Prompt : comment interagir avec Claude, fruit du Constitutional AI
Agent IA : les agents Claude guidés par les principes du Constitutional AI
Notre expertise SEO : usage de Claude pour la production et l’optimisation de contenus

Constitutional AI