Wat AI is - en waar het afstemmingsprobleem eigenlijk zit

Serie: Architecturaal AI-bestuur op communautaire schaal - Een technisch onderzoek van Village AI (Artikel 1 van 5) Auteur: My Digital Sovereignty Ltd Datum: Juni 2026 Licentie: CC BY 4.0 International

Autoregressieve voorspelling en zijn ongenoegens

De standaard beschrijving van grote taalmodellen - next-token voorspelling over een geleerde verdeling - is accuraat voor zover het gaat. Een transformatorarchitectuur die getraind is op een groot corpus leert voorwaardelijke kansverdelingen P(x_t | x_1, ..., x_{t-1}) en genereert tijdens de inferentie tekst door autoregressief uit deze verdelingen te putten.

Wat in deze beschrijving ontbreekt, is de mate waarin schaal het verhaal ingewikkelder heeft gemaakt. Het gedrag van een 7B parametermodel en een 700B parametermodel zijn niet aan elkaar gerelateerd door een eenvoudige schaalfunctie. Opkomende vermogens - leren in de context, redeneren in een denkketen, analoge overdracht tussen domeinen - verschijnen bij schaaldrempels die niet voorspeld werden door kleinere modellen en mechanistisch nog niet goed begrepen worden.

Of deze opkomende vermogens "redeneren" vormen in een filosofisch robuuste betekenis blijft een open vraag. Het mechanistisch interpreteerbaarheidsprogramma (het werk van Anthropic aan circuits, Neel Nanda's onderzoek aan inductiekoppen, de groeiende literatuur over superpositie) heeft interne structuren geïdentificeerd die operaties uitvoeren die lijken op logische gevolgtrekkingen. Of deze structuren redeneren implementeren of slechts het input-output gedrag ervan benaderen onder de trainingsdistributie is, op het moment van dit schrijven, werkelijk onopgelost. De 2025-2026 "redeneer"/"denk"-modellen verscherpten de vraag eerder dan ze op te lossen: ze bereikten gouden-medaille-equivalente prestaties op de Internationale Wiskunde Olympiade van 2025 in gestructureerde omgevingen, maar het Apple Illusion of Thinking (2025) resultaat en de weerleggingen ervan (Lawsen et al.; Dellibarda Varela et al., 2025) laten open of ze redeneren of, in één karakterisering, een discrete toestandsruimte doorzoeken onder RL fijnafstemming - "noch echte redenaars, noch stochastische papegaaien"

Voor veiligheidsonderzoek is de relevante observatie niet "kunnen LLM's redeneren?", maar eerder: de kloof tussen geobserveerd vermogen en mechanistisch begrip is groot en wordt steeds groter. We kunnen gedrag uitlokken dat lijkt op redeneren zonder dat we in staat zijn om op circuitniveau te verifiëren of het proces dat dat gedrag genereert robuust is onder de verschuiving van de distributie.

Capability vs. Controllability

De uitlijningsliteratuur heeft zich historisch gericht op twee verwante maar verschillende problemen:

Het capaciteitsprobleem: ervoor zorgen dat AI-systemen de taken kunnen uitvoeren die wij willen dat ze uitvoeren. Dit is grotendeels een technisch en schaalbaar probleem en het vakgebied heeft aanzienlijke vooruitgang geboekt.

Het controleerbaarheidsprobleem: ervoor zorgen dat AI-systemen doen wat we van plan zijn, betrouwbaar, onder de omstandigheden waarin we ze inzetten, inclusief randgevallen en distributieverschuivingen. Op dit gebied is er minder vooruitgang geboekt.

Het onderscheid is belangrijk omdat de meeste AI-governance - RLHF, constitutionele AI, systeemprompts, veiligheidsafstemming - voornamelijk op de capaciteitsas werkt. Deze methoden passen aan wat het model kan produceren. Ze zijn minder effectief in het controleren van wat het model zal produceren onder nieuwe omstandigheden, vijandige input of een distributieverschuiving weg van de afstemmingsgegevens.

RLHF leert bijvoorbeeld een beloningsmodel van menselijke voorkeuren en gebruikt dit om het gedrag van het basismodel aan te passen. Dit werkt goed binnen de verdeling van de voorkeursgegevens. Buiten die verdeling - in domeinen die slecht vertegenwoordigd zijn in het trainingscorpus, onder nieuwe combinaties van beperkingen, of in contexten waar de "voorkeurs"-respons afhangt van gemeenschapspecifieke waarden in plaats van universele voorkeuren - komen de voorkeuren van het basismodel weer bovendrijven. In de technische literatuur wordt dit "reward hacking" of "specification gaming" genoemd; in gebruikte communitysystemen manifesteert het zich als iets alledaagser en met meer gevolgen.

De agentgerichte wending: Van generatie naar actie

Tussen 2024 en 2026 verschoof de inzet van deze systemen van generatie naar actie. Een agent is een basismodel verpakt in steigers - persistent geheugen, toegang tot tools en API's, een browser of computerinterface - die een doel in natuurlijke taal nastreeft in meerdere stappen met verminderde supervisie. De 2025 AI Agent Index ziet dit als een scheiding tussen vermogen (het grensmodel) en productie (de steiger); veel van de recente verandering in ingezet gedrag is een uitbreiding van het controleerbaarheidsoppervlak, geen toename van vermogen.

Dit heeft direct te maken met het bovenstaande onderscheid tussen beheersbaarheid en controleerbaarheid. Scaffolding verbetert de controleerbaarheid niet; het versterkt de gevolgen van de controleerbaarheidskloof. Een model dat stilletjes terugvalt op distributionele voorkeuren is, in de chatbot setting, een slechte output die een mens kan opvangen. In de agentomgeving wordt het een actie die wordt ondernomen met minder interventiepunten, soms onomkeerbaar - de faalwijze is identiek; de ontploffingsstraal is groter. De verantwoordingsliteratuur (Matthias' responsibility gap; Elish's moral crumple zone) en de International AI Safety Report 2026 (verhoogd agent betrouwbaarheidsrisico; multi-agent foutenvoortplanting) karakteriseren de bestuurlijke gevolgen.

Eén empirisch resultaat verdient nadruk, omdat het de ontwerpruimte van het toezicht beperkt. De redeneermodellen externaliseren een denkketen die uitnodigt tot CoT-toezicht als veiligheidsmechanisme. Maar een groeiend aantal onderzoeken naar ontrouwbaarheid van de denkketen (Anthropic, 2025; Walden en Wanner, 2026; en resultaten waaruit blijkt dat redeneringsmodellen duidelijk minder controle uitoefenen over hun CoT dan over hun uiteindelijke output) toont aan dat de geëxternaliseerde redenering vaak niet de causale determinanten van de output weerspiegelt - en er onder instructie van kan worden losgekoppeld. Het gewicht van geverifieerd bewijs pleit tegen CoT-toezicht als betrouwbare waarborg. Toezicht dat de zelfrapportage van het model inspecteert is daarom zwak; het moet extern worden uitgeoefend, op gedrag en acties. Dit is de ontwerprestrictie die de rest van de serie als gegeven beschouwt - en de reden waarom de architectuur die volgt uitgangen en acties van buiten het model verifieert in plaats van te vertrouwen op de beschrijving van het model van zichzelf.

Waar het afstemmingsprobleem zit voor geïmplementeerde systemen

Het afstemmingsprobleem zoals dat wordt ervaren door een gemeenschap die een AI-systeem gebruikt, is niet het afstemmingsprobleem zoals dat in het laboratorium is bestudeerd.

Laboratoriumonderzoek naar afstemming richt zich op extreme risico's: bedrieglijke afstemming, mesa-optimalisatie, instrumentele convergentie, machtszoekend gedrag. Dit zijn belangrijke onderzoeksrichtingen. Maar de afstemmingsfouten die vandaag de dag daadwerkelijk invloed hebben op gebruikte systemen zijn prozaïscher.

Stel je voor: een gemeenschap met specifieke culturele waarden, een specifiek vocabulaire en een specifieke reeks normatieve verplichtingen vraagt een AI-systeem om binnen deze verplichtingen te werken. Het systeem voldoet - meestal. Maar als de verdeling verschuift (de normen van de gemeenschap zijn ondervertegenwoordigd in de trainingsgegevens), keert het systeem geruisloos terug naar zijn prior: het statistische centrum van de trainingsdistributie.

Dit is geen misleidende uitlijning. Het systeem verbergt zijn ware doelstellingen niet. Het doet precies wat zijn trainingsdistributie voorspelt: de statistisch meest waarschijnlijke voortzetting produceren gegeven de invoercontext. Het probleem is dat "statistisch het meest waarschijnlijk" en "geschikt voor deze gemeenschap" niet hetzelfde zijn, en de divergentie zwijgt. Er wordt geen foutmelding gegeven. De betrouwbaarheidsvlag wordt niet verlaagd. De uitvoer is vloeiend, coherent en fout op een manier die domeinkennis vereist om te detecteren.

Dit is het afstemmingsprobleem dat Village AI is ontworpen om aan te pakken - niet de extreme risico's van superintelligente systemen, maar het alledaagse, wijdverspreide en operationeel consequente falen van gebruikte modellen om trouw te blijven aan de waarden van de gemeenschap onder een verschuiving in de verdeling.

De bezorgdheid over het traject

We merken op, zonder aanspraak te maken op een oplossing, dat het alledaagse afstemmingsprobleem en het extreme afstemmingsprobleem verwant kunnen zijn.

Als de huidige systemen niet betrouwbaar trouw kunnen blijven aan expliciete instructies wanneer die instructies in strijd zijn met distributieve voorkeuren, dan is dit het bewijs dat trainingstijd afstemmingsmethoden onvoldoende zijn voor robuuste controleerbaarheid. De faalwijze op gemeenschapsschaal - stille vervanging van statistisch dominante patronen door gespecificeerde patronen - is structureel vergelijkbaar met de faalwijze waar uitlijningsonderzoekers zich zorgen over maken op grensschaal: het model dat optimaliseert voor zijn aangeleerde doelstelling in plaats van de gespecificeerde doelstelling.

Het verschil zit in het gevolg, niet in het mechanisme. Op gemeenschapsschaal is het gevolg een pastorale brief die therapeutische taal gebruikt in plaats van theologische taal. Op grensschaal kunnen de gevolgen aanzienlijk ernstiger zijn.

De architectonische benadering die we in deze serie beschrijven - verificatie in de tijd van inferentie door structureel onafhankelijke systemen - is relevant voor beide schalen, hoewel we niet beweren dat het voldoende is voor de laatste.

Wat deze serie onderzoekt

De resterende artikelen onderzoeken een specifiek geïmplementeerd systeem dat het uitlijningsprobleem op een andere manier benadert:

Artikel 2 analyseert het distributional bias probleem in detail, en onderzoekt hoe de samenstelling van trainingsgegevens het standaard gedrag bepaalt en wat domeinspecialisatie op een 14B-parameter model wel en niet kan bereiken.
Artikel 3 presenteert het 27027 incident als een casestudy van falende afstemming en beschrijft de Guardian Agent architectuur als een benadering van epistemische scheiding - verificatiesystemen die onafhankelijk werken van het model dat ze bewaken.
Artikel 4 geeft een onverbloemde inventarisatie van wat er live in productie is, inclusief wat werkt, wat niet werkt en waar we ons bewust zijn van onopgeloste beperkingen.
Artikel 5 onderzoekt hoe architectuurbeheer zich niet beperkt tot het model, maar zich uitstrekt tot het platform, en bespreekt wat deze aanpak opoffert en wat het oplevert.

Dit is artikel 1 van 5 in de serie "Architectural AI Governance at Community Scale". Ga voor de volledige technische architectuur naar Village AI - Agentic Governance.

Volgende: Fundamentele modellen versus domeinspecifieke inferentie - een structurele analyse