Ce qu'est l'IA - et où se situe le problème de l'alignement

Série: Gouvernance architecturale de l'IA à l'échelle de la communauté - Un examen technique de la gouvernance de l'IA à l'échelle de la communauté Village AI (Article 1 de 5) Author: My Digital Sovereignty Ltd Date: Juin 2026 Licence: CC BY 4.0 International

La prédiction autorégressive et ses inconvénients

La description standard des grands modèles linguistiques - la prédiction du prochain mot sur la base d'une distribution apprise - est exacte dans la mesure où elle s'applique. Une architecture de transformateur formée sur un grand corpus apprend les distributions de probabilité conditionnelle P(x_t | x_1, ..., x_{t-1}) et, au moment de l'inférence, génère du texte en échantillonnant ces distributions de manière autorégressive.

Cette description ne tient pas compte du degré de complexité de l'échelle. Le comportement d'un modèle à 7 milliards de paramètres et d'un modèle à 700 milliards de paramètres n'est pas lié par une simple fonction d'échelle. Les capacités émergentes - apprentissage en contexte, raisonnement en chaîne, transfert analogique entre domaines - apparaissent à des seuils d'échelle qui n'étaient pas prévus par les modèles plus petits et qui ne sont pas encore bien compris d'un point de vue mécanique.

La question de savoir si ces capacités émergentes constituent un "raisonnement" au sens philosophique du terme reste ouverte. Le programme d'interprétabilité mécaniste (les travaux d'Anthropic sur les circuits, les recherches de Neel Nanda sur les têtes d'induction, la littérature croissante sur la superposition) a identifié des structures internes qui effectuent des opérations ressemblant à des inférences logiques. La question de savoir si ces structures mettent en œuvre le raisonnement ou si elles se contentent d'approximer son comportement d'entrée-sortie dans le cadre de la distribution d'entraînement n'a pas encore été résolue à ce jour. Les modèles de "raisonnement"/"pensée" 2025-2026 ont affiné la question plutôt que de la résoudre : ils ont atteint des performances équivalentes à la médaille d'or aux Olympiades internationales de mathématiques 2025 dans des environnements structurés, mais le résultat Apple Illusion of Thinking (2025) et ses réfutations (Lawsen et al. ; Dellibarda Varela et al., 2025) laissent en suspens la question de savoir s'ils raisonnent ou, selon une caractérisation, s'ils recherchent un espace d'état discret sous RL fine-tuning - "ni vrais raisonneurs, ni perroquets stochastiques"

Pour la recherche sur la sécurité, l'observation pertinente n'est pas "les LLM peuvent-ils raisonner ?" mais plutôt : l'écart entre la capacité observée et la compréhension mécaniste est important et s'accroît. Nous pouvons susciter un comportement qui ressemble à un raisonnement sans être en mesure de vérifier, au niveau du circuit, que le processus générant ce comportement est robuste en cas de changement de distribution.

Capacité et contrôlabilité

La littérature sur l'alignement s'est historiquement concentrée sur deux problèmes liés mais distincts :

Le problème de la capacité : s'assurer que les systèmes d'IA peuvent accomplir les tâches que nous voulons qu'ils accomplissent. Il s'agit en grande partie d'un problème d'ingénierie et de mise à l'échelle, et des progrès considérables ont été réalisés dans ce domaine.

**Le problème de la contrôlabilité : s'assurer que les systèmes d'IA font ce que nous voulons, de manière fiable, dans les conditions dans lesquelles nous les déployons, y compris les cas limites et le changement de distribution. C'est dans ce domaine que les progrès ont été les plus lents.

La distinction est importante parce que la plupart des méthodes de gouvernance de l'IA déployées - RLHF, IA constitutionnelle, invites du système, réglage fin de la sécurité - opèrent principalement sur l'axe de la capacité. Ces méthodes ajustent ce que le modèle peut produire. Elles sont moins efficaces pour contrôler ce que le modèle produira dans des conditions inédites, en présence d'intrants contradictoires ou d'une distribution qui s'éloigne des données de réglage fin.

La méthode RLHF, par exemple, apprend un modèle de récompense à partir des préférences humaines et l'utilise pour ajuster le comportement du modèle de base. Cette méthode fonctionne bien dans le cadre de la distribution des données relatives aux préférences. En dehors de cette distribution - dans des domaines mal représentés dans le corpus d'apprentissage, sous de nouvelles combinaisons de contraintes ou dans des contextes où la réponse "préférée" dépend de valeurs propres à la communauté plutôt que de préférences universelles - les a priori du modèle de base se réaffirment. Dans la littérature technique, on parle de "reward hacking" ou de "specification gaming" ; dans les systèmes communautaires déployés, ce phénomène se manifeste de manière plus banale et plus conséquente.

Le tournant agentique : De la génération à l'action

Entre 2024 et 2026, la surface déployée de ces systèmes est passée de la génération à l'action. Un agent est un modèle de base enveloppé dans un échafaudage - mémoire persistante, accès aux outils et aux API, navigateur ou interface d'utilisation de l'ordinateur - qui poursuit un objectif en langage naturel en plusieurs étapes avec une supervision réduite. Le site 2025 AI Agent Index présente cela comme une séparation entre la capacité (le modèle frontalier) et la productivité (l'échafaudage) ; une grande partie du changement récent dans le comportement déployé est une expansion de la surface de contrôle, et non un gain de capacité.

Cela concerne directement la distinction entre capacité et contrôlabilité évoquée plus haut. L'échafaudage n'améliore pas la contrôlabilité ; il amplifie les conséquences de l'écart de contrôlabilité. Un modèle qui revient silencieusement à des a priori distributionnels est, dans le cadre d'un chatbot, une mauvaise sortie qu'un humain peut attraper. Dans le cadre agentique, il devient une action prise avec moins de points d'intervention, parfois de manière irréversible - le mode de défaillance est identique ; le rayon de l'explosion est plus grand. La littérature sur la responsabilité (responsibility gap de Matthias ; moral crumple zone d'Elish) et le International AI Safety Report 2026 (risque accru de fiabilité des agents ; propagation d'erreurs multi-agents) caractérisent les conséquences en matière de gouvernance.

Un résultat empirique mérite d'être souligné, car il contraint l'espace de conception de la surveillance. Les modèles de raisonnement externalisent une chaîne de pensée qui invite à la surveillance du CdT en tant que mécanisme de sécurité. Mais un nombre croissant de travaux sur l'infidélité de la chaîne de pensée (Anthropic, 2025 ; Walden et Wanner, 2026 ; et des résultats montrant que les modèles de raisonnement exercent nettement moins de contrôle sur leur CoT que sur leurs résultats finaux) montrent que le raisonnement externalisé ne reflète souvent pas les déterminants causaux du résultat - et peut en être découplé sur instruction. Le poids des preuves vérifiées va à l'encontre du contrôle de la TDC en tant que mesure de protection fiable. Le contrôle qui inspecte l'auto-déclaration du modèle n'est donc pas très solide ; il doit être exercé de l'extérieur, sur le comportement et les actions. C'est la contrainte de conception que le reste de la série considère comme acquise - et la raison pour laquelle l'architecture qui suit vérifie les résultats et les actions de l'extérieur du modèle plutôt que de faire confiance à son propre compte-rendu.

Où se situe le problème d'alignement pour les systèmes déployés

Le problème d'alignement tel qu'il est vécu par une communauté déployant un système d'IA n'est pas le problème d'alignement tel qu'il est étudié en laboratoire.

La recherche sur l'alignement en laboratoire se concentre sur les risques extrêmes : alignement trompeur, méso-optimisation, convergence instrumentale, comportement de recherche de pouvoir. Il s'agit là d'axes de recherche importants. Mais les échecs d'alignement qui affectent réellement les systèmes déployés aujourd'hui sont plus prosaïques.

Prenons l'exemple suivant : une communauté dotée de valeurs culturelles spécifiques, d'un vocabulaire spécifique et d'un ensemble précis d'engagements normatifs demande à un système d'IA de fonctionner dans le cadre de ces engagements. Le système s'y conforme - la plupart du temps. Mais en cas de changement de distribution (les normes de la communauté sont sous-représentées dans les données d'apprentissage), le système revient silencieusement à son a priori : le centre statistique de sa distribution d'apprentissage.

Il ne s'agit pas d'un alignement trompeur. Le système ne dissimule pas ses véritables objectifs. Il fait précisément ce que sa distribution d'apprentissage prédit : produire la suite statistiquement la plus probable compte tenu du contexte d'entrée. Le problème est que "statistiquement le plus probable" et "approprié pour cette communauté" ne sont pas la même chose, et la divergence est silencieuse. Aucune erreur n'est soulevée. Aucun indicateur de confiance n'est abaissé. La sortie est fluide, cohérente et erronée d'une manière qui nécessite une expertise dans le domaine pour être détectée.

C'est le problème d'alignement que Village AI n'est pas conçu pour traiter les risques extrêmes des systèmes superintelligents, mais l'échec banal, omniprésent et opérationnel des modèles déployés pour maintenir la fidélité aux valeurs spécifiques de la communauté en cas de changement de distribution.

The Trajectory Concern

Nous notons, sans prétendre le résoudre, que le problème de l'alignement banal et le problème de l'alignement extrême peuvent être liés.

Si les systèmes actuels ne peuvent pas maintenir de manière fiable la fidélité aux instructions explicites lorsque ces instructions sont en conflit avec les a priori distributionnels, cela prouve que les méthodes d'alignement du temps d'apprentissage sont insuffisantes pour assurer une contrôlabilité robuste. Le mode de défaillance à l'échelle communautaire - substitution silencieuse des modèles statistiquement dominants aux modèles spécifiés - est structurellement similaire au mode de défaillance qui préoccupe les chercheurs en alignement à l'échelle de la frontière : le modèle optimisant pour son objectif appris plutôt que pour l'objectif spécifié.

La différence réside dans les conséquences et non dans le mécanisme. À l'échelle de la communauté, la conséquence est une lettre pastorale qui utilise un langage thérapeutique au lieu d'un langage théologique. À l'échelle de la frontière, les conséquences peuvent être beaucoup plus graves.

L'approche architecturale que nous décrivons dans cette série - la vérification du temps d'inférence par des systèmes structurellement indépendants - est pertinente pour les deux échelles, bien que nous ne prétendions pas qu'elle soit suffisante pour la dernière.

Ce que cette série examine

Les autres articles examinent un système spécifique déployé qui adopte une approche différente du problème de l'alignement :

L'article 2 analyse en détail le problème du biais de distribution, en examinant comment la composition des données d'apprentissage détermine le comportement par défaut et ce que la spécialisation d'un domaine sur un modèle à 14 paramètres peut et ne peut pas réaliser.
L'article 3 présente l'incident du 27027 comme une étude de cas sur l'échec de l'alignement et décrit l'architecture Guardian Agent comme une approche de la séparation épistémique - des systèmes de vérification qui fonctionnent indépendamment du modèle qu'ils surveillent.
L'article 4 dresse un inventaire sans fard de ce qui est en production, y compris ce qui fonctionne, ce qui ne fonctionne pas et les domaines dans lesquels nous sommes conscients de limitations non résolues.
**L'article 5 examine comment la gouvernance architecturale s'étend au-delà du modèle dans la plateforme, et discute de ce que cette approche sacrifie et de ce qu'elle gagne.

Ceci est l'article 1 sur 5 de la série "Gouvernance architecturale de l'IA à l'échelle communautaire". Pour l'architecture technique complète, visitez Village AI - Gouvernance agentique.

Suivant : Modèles de base vs. inférence spécialisée par domaine - Une analyse structurelle