Ce qu'est l'IA, ce qu'elle n'est pas et ce qui reste incertain

Series: Community-Scale AI Governance - A Research Perspective on the Village Platform (Article 1 of 5) Author: My Digital Sovereignty Ltd Date: Juin 2026 Licence: CC BY 4.0 International

Prédiction statistique à l'échelle

Le mécanisme central des grands modèles de langage (LLM) contemporains est la prédiction du prochain token. Étant donné une séquence de tokens, le modèle génère une distribution de probabilité sur les continuations possibles, en s'appuyant sur des modèles extraits d'un corpus d'apprentissage à grande échelle - généralement des milliards de documents couvrant de multiples domaines, langues et registres.

Ce mécanisme produit des résultats qui sont souvent utiles : une prose cohérente, un résumé compétent, des réponses plausibles à des questions factuelles et un code fonctionnel. L'utilité pratique n'est pas contestée.

Ce qui est contesté - et ce qui importe pour la gouvernance - c'est la nature du processus qui produit ces résultats et, par conséquent, la confiance que l'on peut leur accorder.

Des modèles aux agents : Capacités et production

Une évolution entre 2024 et 2026 a déplacé l'objet de la gouvernance du modèle vers l'"agent". La distinction est importante d'un point de vue analytique. Le modèle (ou moteur) est le prédicteur du prochain jeton décrit ci-dessus. Un agent est ce modèle intégré dans un échafaudage - mémoire persistante, accès aux outils et aux API, navigateur web ou interface informatique - et orienté vers un objectif exprimé en langage naturel, qu'il poursuit à travers de multiples étapes avec une supervision humaine réduite. Le site 2025 AI Agent Index décrit cela comme une séparation de la capacité (modèles frontières) et de la productivité (l'échafaudage agentique qui les entoure) : une grande partie du changement apparent dans ce que l'IA peut faire, par opposition à ce qu'elle peut dire, découle de l'enveloppe plutôt que d'une nouvelle architecture de modèle.

Ce changement modifie l'objet de la gouvernance dans un sens plus que quantitatif. Les résultats d'un chatbot ne causent des dommages que lorsqu'un humain agit sur eux ; un agent peut agir directement sur le monde, avec moins de points d'intervention. La littérature a commencé à formaliser les problèmes de responsabilité qui en résultent - le responsibility gap (Matthias, 2004), dans lequel les opérateurs ne peuvent raisonnablement pas être tenus responsables du comportement des systèmes dont ils n'ont pas déterminé les actions, et la moral crumple zone (Elish, 2019), dans laquelle la responsabilité incombe à l'humain le plus proche en dépit d'un contrôle limité. Le International AI Safety Report 2026 note en outre que les agents présentent des risques de fiabilité accrus précisément parce qu'ils agissent de manière autonome, et que les erreurs dans les configurations multi-agents peuvent se propager et s'amplifier. Pour la recherche sur la gouvernance, le point essentiel est que l'autonomie déplace le lieu du risque de l'interprétation des résultats à l'exécution des actions - un déplacement que la gouvernance basée sur la politique, orientée vers l'examen des résultats, est mal positionnée pour aborder.

La question du raisonnement : Un problème empirique ouvert

Les premières caractérisations des LLM en tant que "perroquets stochastiques" - des systèmes qui reproduisent des régularités statistiques sans aucune forme de compréhension - ont permis de saisir un aspect important des fondements de la technologie. Cependant, au fur et à mesure que l'échelle du modèle a augmenté, des comportements sont apparus qui résistent à une caractérisation simple.

Les grands modèles font preuve d'une capacité d'inférence logique à plusieurs étapes, de raisonnement analogique entre les domaines et de performances sur des problèmes nouveaux structurellement différents des exemples d'apprentissage. Certains chercheurs décrivent ces capacités comme des capacités émergentes, c'est-à-dire des propriétés qui apparaissent à grande échelle sans avoir été explicitement conçues. D'autres soutiennent que le raisonnement apparent est une forme sophistiquée d'interpolation de modèles qui ressemble simplement à un raisonnement lorsqu'il est évalué par des observateurs humains prédisposés à attribuer une compréhension.

Les preuves empiriques sont, à l'heure actuelle, insuffisantes pour résoudre cette question. Plusieurs observations compliquent toute position assurée :

Les modèles résolvent des problèmes qui requièrent une généralisation de la composition, ce qui suggère quelque chose qui va au-delà de la simple récupération.
Les modèles présentent également des défaillances - génération confiante de fausses déclarations, fragilité face aux perturbations adverses, sensibilité aux caractéristiques superficielles des invites - qui ne sont pas compatibles avec un raisonnement robuste.
Les représentations internes des grands modèles ne sont pas bien comprises. La recherche sur l'interprétabilité mécaniste a identifié des structures de type circuit qui sont en corrélation avec des capacités spécifiques, mais le domaine n'en est qu'à ses débuts.
La question de savoir si la distinction entre "raisonnement authentique" et "comportement de type raisonnement" a une signification empirique ou si elle se réduit à un engagement philosophique n'est pas résolue.

Une complication supplémentaire est apparue avec la génération 2025-2026 de modèles de "raisonnement" ou de "pensée", qui externalisent une chaîne de pensée intermédiaire et allouent des calculs de temps d'inférence supplémentaires à des problèmes plus difficiles ; dans des environnements structurés, de tels systèmes ont atteint une performance équivalente à la médaille d'or lors de l'Olympiade internationale de mathématiques de 2025. Le débat sur l'interprétation reste vif et non résolu. L'étude The Illusion of Thinking (2025) d'Apple a fait état d'un effondrement caractéristique de la précision sur des puzzles évolutifs, tandis que plusieurs réfutations (par exemple Lawsen et al. ; Dellibarda Varela et al., 2025) ont attribué une partie de l'effet à des artefacts d'évaluation et ont caractérisé ces systèmes comme n'étant "ni de vrais raisonneurs ni des perroquets stochastiques" Un corpus croissant de travaux sur l'infidélité de la "chaîne de pensée" (Anthropic, 2025, et les études ultérieures de 2026) est plus important pour la gouvernance : le raisonnement externalisé ne reflète souvent pas les déterminants causaux des résultats du modèle, ce qui sape tout régime de surveillance qui repose sur l'inspection du raisonnement déclaré d'un modèle. La chaîne de pensée affichée est elle-même un texte généré, et non une lecture instrumentale d'un processus interne.

En matière de gouvernance, l'implication pragmatique est la suivante : on ne peut pas supposer en toute sécurité qu'un LLM raisonne correctement, et on ne peut pas non plus rejeter ses résultats comme n'étant pas fiables. Le système occupe une position intermédiaire inconfortable où les résultats sont souvent utiles, parfois erronés, et ne peuvent être distingués les uns des autres de manière fiable sans vérification externe.

Nouveauté et synthèse

Une question connexe est de savoir si les LLM peuvent produire des résultats réellement nouveaux. L'affirmation la plus forte - que les modèles ne génèrent que des recombinaisons de données d'apprentissage - est étroitement correcte et largement trompeuse.

Prenons l'exemple d'un modèle qui a absorbé des textes sur la théorie de la gouvernance polycentrique, le comportement organisationnel et l'informatique communautaire en tant que corpus de travail distincts. Lorsqu'il est sollicité de manière appropriée, il peut synthétiser des connexions entre ces domaines qu'aucun chercheur individuel n'a établies, parce qu'aucun chercheur individuel n'a la même étendue d'exposition. Les idées constitutives ne sont pas nouvelles. La synthèse, cependant, peut être nouvelle pour un lecteur donné - et peut identifier de véritables parallèles structurels qui méritent d'être étudiés.

Cela n'équivaut pas à la nouveauté de la recherche primaire. Le modèle n'a pas accès aux données empiriques sur lesquelles il n'a pas été formé, il n'a pas la capacité de concevoir des expériences et il n'a pas la capacité d'évaluer si les liens qu'il a synthétisés tiennent la route à l'examen. La synthèse est un générateur d'hypothèses, pas un validateur d'hypothèses. Mais la génération d'hypothèses a de la valeur, à condition de ne pas la confondre avec la confirmation d'hypothèses.

Pour les chercheurs qui évaluent les systèmes d'IA, l'implication est que les résultats du LLM peuvent être utiles comme point de départ pour l'examen de la littérature, l'exploration inter-domaines et l'identification d'analogies structurelles - mais nécessitent le même examen critique que celui que l'on appliquerait à toute source non vérifiée.

Les données de formation comme vision du monde

Chaque LLM hérite de la distribution statistique de son corpus de formation. Il ne s'agit pas d'un biais corrigeable, mais d'une propriété structurelle de la technologie.

Un modèle formé principalement sur du contenu Internet occidental en langue anglaise, à vocation commerciale, produira des résultats qui reflètent les hypothèses, le cadrage et les priorités de ce corpus. Lorsqu'on lui demande d'aborder des sujets pour lesquels les données de formation sont rares - traditions de gouvernance indigènes, langage liturgique, culture orale, prise de décision au sein de petites communautés - le modèle adopte par défaut des modèles statistiquement dominants plutôt que de reconnaître l'écart.

Cela a des implications directes pour tout déploiement dans un contexte communautaire spécifique. Un modèle chargé de générer du contenu pour un groupe de recherche étudiant la gouvernance communale adoptera par défaut le langage de la gestion d'entreprise - non pas parce qu'il a évalué les alternatives, mais parce que le langage de la gestion d'entreprise prédomine dans ses données de formation. La substitution est silencieuse : le modèle ne signale pas qu'il opère en dehors de son domaine de compétence.

Ce phénomène - que l'on pourrait qualifier de "dérive distributionnelle" dans un contexte de gouvernance - est bien documenté mais pas bien résolu. Des techniques telles que le réglage fin, la génération augmentée par récupération (RAG) et les messages-guides du système peuvent atténuer l'effet, mais ne l'éliminent pas. Le biais résiduel du modèle de base persiste, en particulier dans le cas de requêtes nouvelles ou complexes pour lesquelles le signal de réglage fin est plus faible que la distribution de base.

Implications pour la recherche sur la gouvernance

Les caractéristiques décrites ci-dessus - résultats utiles mais non fiables, biais de distribution silencieux, capacité de raisonnement incertaine - définissent collectivement le défi de la gouvernance.

Un système d'IA qui se trompe occasionnellement est un problème d'assurance qualité. Un système d'IA qui se trompe occasionnellement au point de substituer silencieusement un cadre de valeurs à un autre est un problème de gouvernance. La distinction est importante car le premier problème peut être résolu par la vérification des erreurs, tandis que le second nécessite des mécanismes structurels qui détectent les dérives au niveau des valeurs, et pas seulement les erreurs factuelles.

Le tournant agentique accroît les enjeux de cette distinction. Lorsque la dérive du niveau de valeur n'est pas liée à un résultat révisable mais à une action exécutée de manière autonome, la fenêtre de correction humaine se rétrécit ou se ferme ; et les résultats de l'infidélité de la chaîne de pensée impliquent que le propre compte-rendu du système sur la raison pour laquelle il a agi ne peut pas être traité comme un signal de contrôle fiable. La gouvernance qui dépend de l'auto-déclaration du système est donc structurellement inadéquate. La vérification doit être externe au système et s'exercer sur ses actions, et pas seulement sur ses explications.

C'est le problème que le cadre Tractatus est censé résoudre. La question de savoir s'il y parvient est une question empirique examinée dans des articles ultérieurs. Ce que l'on peut affirmer ici, c'est que le problème est réel, bien caractérisé et qu'il n'est pas traité de manière adéquate par les approches politiques qui dominent actuellement le discours sur la gouvernance de l'IA.

Ce que cet article ne prétend pas

Cet article ne prétend pas que les LLM sont incapables de raisonner - les preuves sont insuffisantes pour tirer cette conclusion. Il ne prétend pas que les MFR peuvent raisonner - les preuves sont tout aussi insuffisantes. Il ne prétend pas que le biais de distribution est insoluble, mais seulement que les techniques d'atténuation actuelles sont partielles. Il ne prétend pas non plus que la gouvernance de l'IA est impossible, mais seulement que le défi de la gouvernance est plus structurel qu'il n'est généralement admis.

L'article suivant examine les différences structurelles spécifiques entre les plateformes d'IA commerciales et les systèmes d'IA gérés par la communauté, et analyse les compromis impliqués.

Ceci est l'article 1 sur 5 de la série "Gouvernance de l'IA à l'échelle communautaire". Pour l'architecture technique complète, visitez Village AI - Gouvernance agentique.

Suivant : IA de plateforme vs. IA gouvernée par la communauté - Une analyse structurelle