Wat AI is, wat het niet is en wat nog onzeker is

Serie: Community-Scale AI Governance - Een onderzoeksperspectief op het Village Platform (Artikel 1 van 5) Auteur: My Digital Sovereignty Ltd Datum: Juni 2026 Licentie: CC BY 4.0 Internationaal

Statistische voorspelling op schaal

Het kernmechanisme van hedendaagse grote taalmodellen (LLM's) is voorspelling van volgende tokens. Gegeven een reeks tokens genereert het model een waarschijnlijkheidsverdeling over mogelijke vervolgstappen, op basis van patronen die zijn geëxtraheerd uit een trainingscorpus van aanzienlijke omvang - meestal miljarden documenten verspreid over meerdere domeinen, talen en registers.

Dit mechanisme levert vaak bruikbare resultaten op: samenhangend proza, competente samenvattingen, plausibele antwoorden op feitelijke vragen en functionele code. Het praktische nut staat niet ter discussie.

Wat wel ter discussie staat - en wat belangrijk is voor het bestuur - is de aard van het proces dat deze outputs produceert en, bijgevolg, hoeveel vertrouwen erin kan worden gesteld.

Van modellen naar agenten: Vermogen versus Productisering

Een ontwikkeling tussen 2024 en 2026 heeft het object van bestuur verschoven van het model naar de agent. Het onderscheid is analytisch belangrijk. Het model (of engine) is de next-token voorspeller zoals hierboven beschreven. Een agent* is dat model ingebed in een steiger - persistent geheugen, toegang tot tools en API's, een webbrowser of computerinterface - en gericht op een doel uitgedrukt in natuurlijke taal, dat het in meerdere stappen nastreeft met beperkte menselijke supervisie. De 2025 AI Agent Index karakteriseert dit als een scheiding tussen capability (grensmodellen) en productisation (de agentische steigers eromheen): veel van de ogenschijnlijke stap voorwaarts in wat AI kan doen, in tegenstelling tot wat het kan zeggen, komt eerder voort uit de wrapper dan uit een nieuwe modelarchitectuur.

Deze verschuiving verandert het bestuursobject in meer dan een kwantitatieve zin. De output van een chatbot veroorzaakt alleen schade als een mens ernaar handelt; een agent kan direct handelen op de wereld, met minder interventiepunten. De literatuur is begonnen met het formaliseren van de resulterende verantwoordingsproblemen - de responsibility gap (Matthias, 2004), waarin operators redelijkerwijs niet verantwoordelijk kunnen worden gehouden voor het gedrag van systemen waarvan ze de acties niet hebben bepaald, en de moral crumple zone (Elish, 2019), waarin aansprakelijkheid zich vestigt op de dichtstbijzijnde mens ondanks beperkte controle. De International AI Safety Report 2026 merkt verder op dat agenten verhoogde betrouwbaarheidsrisico's vormen juist omdat ze autonoom handelen, en dat fouten in multi-agent configuraties zich kunnen voortplanten en versterken. Voor bestuurskundig onderzoek is het saillante punt dat autonomie de risicolocatie verplaatst van de interpretatie van outputs naar de uitvoering van acties - een verplaatsing die beleidsgebaseerd bestuur, gericht op outputbeoordeling, slecht kan aanpakken.

De redeneervraag: Een open empirisch probleem

Vroege karakteriseringen van LLM's als "stochastische papegaaien" - systemen die statistische regelmatigheden reproduceren zonder enige vorm van begrip - bevatten iets belangrijks over de fundamenten van de technologie. Naarmate de schaal van het model toenam, zijn er echter gedragingen ontstaan die niet eenvoudig te karakteriseren zijn.

Grote modellen kunnen logische gevolgtrekkingen in meerdere stappen maken, analoog redeneren in verschillende domeinen en presteren op nieuwe problemen die structureel verschillen van de trainingsvoorbeelden. Sommige onderzoekers beschrijven dit als emergente capaciteiten - eigenschappen die op schaal ontstaan zonder dat ze expliciet ontwikkeld zijn. Anderen beweren dat schijnbaar redeneren een verfijnde vorm van patrooninterpolatie is die alleen maar op redeneren lijkt wanneer het geëvalueerd wordt door menselijke waarnemers die geneigd zijn om begrip toe te schrijven.

Het empirisch bewijs is op dit moment onvoldoende om deze vraag op te lossen. Verschillende observaties bemoeilijken elke zelfverzekerde positie:

Modellen lossen problemen op die samengestelde generalisatie vereisen, wat iets suggereert dat verder gaat dan eenvoudig ophalen.
Modellen vertonen ook tekortkomingen - het zelfverzekerd genereren van valse verklaringen, broosheid onder adversaire verstoring, gevoeligheid voor oppervlaktekenmerken van prompts - die niet consistent zijn met robuust redeneren.
De interne representaties van grote modellen worden niet goed begrepen. Mechanistisch interpreteerbaarheidsonderzoek heeft circuitachtige structuren geïdentificeerd die correleren met specifieke capaciteiten, maar het veld bevindt zich in een vroeg stadium.
De vraag of het onderscheid tussen "echt redeneren" en "redeneergedrag" empirisch zinvol is, of dat het gereduceerd wordt tot een filosofische verplichting, blijft onopgelost.

Een verdere complicatie kwam met de 2025-2026 generatie van "redeneer"- of "denk"-modellen, die een tussenliggende gedachteketen externaliseren en extra inferentietijd berekeningen toewijzen aan moeilijkere problemen; in gestructureerde instellingen bereikten zulke systemen gouden medaille-equivalente prestaties op de Internationale Wiskunde Olympiade van 2025. Het interpretatieve debat blijft levend en onopgelost. Apple's The Illusion of Thinking (2025) rapporteerde karakteristieke nauwkeurigheidsdalingen bij schaalbare puzzels, terwijl verschillende tegenargumenten (bijv. Lawsen et al.; Dellibarda Varela et al., 2025) een deel van het effect toeschreven aan evaluatieartefacten en deze systemen karakteriseerde als "noch echte redenaars, noch stochastische papegaaien" Nog belangrijker voor het bestuur is een groeiend aantal onderzoeken naar ontrouwbaarheid van de gedachteketen (Anthropic, 2025, en latere onderzoeken uit 2026): de geëxternaliseerde redenering weerspiegelt vaak niet de causale determinanten van de output van het model, wat elk toezichtregime ondermijnt dat vertrouwt op het inspecteren van de opgegeven redenering van een model. De weergegeven gedachtegang is zelf een gegenereerde tekst, geen instrumentele lezing van een intern proces.

Voor bestuursdoeleinden is de pragmatische implicatie de volgende: je kunt er niet veilig van uitgaan dat een LLM correct redeneert, maar je kunt de output ook niet afdoen als onbetrouwbaar. Het systeem bevindt zich op een ongemakkelijke middenweg waar outputs vaak nuttig zijn, soms fout, en niet betrouwbaar van elkaar te onderscheiden zijn zonder externe verificatie.

Nieuwheid en synthese

Een verwante vraag is of LLM's echt nieuwe outputs kunnen produceren. De sterke bewering - dat modellen alleen recombinaties van trainingsgegevens genereren - is in enge zin correct en in grote lijnen misleidend.

Neem een model dat teksten over polycentrische bestuurstheorie, organisatiegedrag en gemeenschapsinformatica als afzonderlijke werkstukken heeft geabsorbeerd. Wanneer het op de juiste manier wordt gevraagd, kan het verbanden leggen tussen deze domeinen die geen enkele individuele onderzoeker heeft gelegd, omdat geen enkele individuele onderzoeker dezelfde brede blootstelling heeft. De samenstellende ideeën zijn niet nieuw. De synthese kan echter wel nieuw zijn voor een bepaalde lezer - en kan echte structurele parallellen identificeren die onderzoek rechtvaardigen.

Dit is niet gelijk aan de nieuwheid van primair onderzoek. Het model heeft geen toegang tot empirische gegevens waarop het niet is getraind, geen capaciteit voor experimenteel ontwerp en geen mogelijkheid om te evalueren of de gesynthetiseerde verbanden standhouden onder nauwkeurig onderzoek. De synthese is een hypothesegenerator, geen hypothesevalidator. Maar het genereren van hypotheses heeft waarde, op voorwaarde dat het niet wordt verward met het bevestigen van hypotheses.

Voor onderzoekers die AI-systemen evalueren, is de implicatie dat LLM-resultaten nuttig kunnen zijn als startpunt voor literatuuronderzoek, domeinoverschrijdend onderzoek en identificatie van structurele analogieën - maar ze vereisen hetzelfde kritische onderzoek dat men zou toepassen op elke niet-geverifieerde bron.

Trainingsgegevens als wereldbeeld

Elke LLM erft de statistische verdeling van zijn trainingscorpus. Dit is geen corrigeerbare afwijking - het is een structurele eigenschap van de technologie.

Een model dat voornamelijk is getraind op Engelstalige, commercieel georiënteerde, westerse internetcontent zal resultaten produceren die de aannames, het kader en de prioriteiten van dat corpus weerspiegelen. Wanneer het model wordt gevraagd om onderwerpen te behandelen waar de trainingsgegevens schaars zijn - inheemse bestuurstradities, liturgische taal, orale cultuur, besluitvorming in kleine gemeenschappen - zal het model eerder terugvallen op statistisch dominante patronen dan de kloof te erkennen.

Dit heeft directe gevolgen voor het gebruik in een specifieke gemeenschapscontext. Een model dat gevraagd wordt om inhoud te genereren voor een onderzoeksgroep die gemeentelijk bestuur bestudeert, zal standaard de taal van het bedrijfsmanagement gebruiken - niet omdat het de alternatieven heeft geëvalueerd, maar omdat de taal van het bedrijfsmanagement overheerst in de trainingsgegevens. De substitutie is stil: het model geeft niet aan dat het buiten zijn competentiedomein opereert.

Dit fenomeen - dat in een bestuurlijke context distributional drift zou kunnen worden genoemd - is goed gedocumenteerd, maar niet goed opgelost. Technieken zoals fine-tuning, retrieval-augmented generation (RAG) en system prompting kunnen het effect verzachten maar niet elimineren. De resterende vertekening van het basismodel blijft bestaan, vooral bij nieuwe of complexe zoekopdrachten waarbij het signaal van de fijnafstemming zwakker is dan de basisverdeling.

Implicaties voor governance-onderzoek

De hierboven beschreven kenmerken - bruikbare maar onbetrouwbare output, stille distributievertekening, onzekere redeneercapaciteit - definiëren samen de bestuurlijke uitdaging.

Een AI-systeem dat er af en toe naast zit, is een kwaliteitsgarantieprobleem. Een AI-systeem dat er af en toe naast zit op een manier die stilzwijgend het ene waardenkader vervangt door een ander, is een bestuursprobleem. Het onderscheid is belangrijk omdat het eerste kan worden aangepakt door fouten te controleren, terwijl het tweede structurele mechanismen vereist die afwijkende waarden detecteren, niet alleen feitelijke fouten.

De "agentic turn" verhoogt de inzet van dit onderscheid. Wanneer afwijkingen op het niveau van waarden niet te wijten zijn aan een controleerbare output, maar aan een autonoom uitgevoerde actie, wordt het venster voor menselijke correctie kleiner of zelfs gesloten; en de bevindingen van de chain-of-thought unfaithfulness impliceren dat het eigen verslag van het systeem over waarom het handelde niet kan worden beschouwd als een betrouwbaar signaal voor toezicht. Bestuur dat afhankelijk is van de zelfrapportage van het systeem is daarom structureel ontoereikend. Verificatie moet buiten het systeem plaatsvinden en betrekking hebben op de acties van het systeem, niet alleen op de verklaringen van het systeem.

Dit is het probleem dat het Tractatus raamwerk wil aanpakken. Of dit lukt, is een empirische vraag die in volgende artikelen wordt onderzocht. Wat we hier kunnen zeggen is dat het probleem reëel en goed gekarakteriseerd is en niet adequaat wordt aangepakt door de beleidsgebaseerde benaderingen die momenteel het AI-governancediscours domineren.

Wat dit artikel niet beweert

Dit artikel beweert niet dat LLM's niet in staat zijn om te redeneren - het bewijs is onvoldoende voor die conclusie. Het beweert niet dat LLM's kunnen redeneren - het bewijs is al even ontoereikend. Er wordt niet beweerd dat distributionele bias onoplosbaar is - alleen dat de huidige beperkingstechnieken gedeeltelijk zijn. En er wordt niet beweerd dat AI-governance onmogelijk is - alleen dat de governance-uitdaging structureler is dan algemeen wordt erkend.

Het volgende artikel onderzoekt de specifieke structurele verschillen tussen commerciële AI-platforms en door de gemeenschap bestuurde AI-systemen, en analyseert de afwegingen die daarbij gemaakt moeten worden.

Dit is artikel 1 van 5 in de serie "Community-Scale AI Governance". Ga voor de volledige technische architectuur naar Village AI - Agentic Governance.

Volgende: Platform AI vs. AI op gemeenschapsschaal - Een structurele analyse