Wat is live in productie - Een eerlijke inventarisatie?

Serie: Architecturaal AI-bestuur op communautaire schaal - Een technisch onderzoek van Village AI (Artikel 4 van 5) Auteur: My Digital Sovereignty Ltd Datum: Juni 2026 Licentie: CC BY 4.0 International

Toepassingsgebied

Dit artikel beschrijft het systeem zoals het in productie is vanaf juni 2026. Waar een mogelijkheid is gepland maar nog niet is ingezet, zeggen we dat. Als een mogelijkheid is ingezet maar bekende beperkingen heeft, beschrijven we die beperkingen. Het doel is een inventarisatie die een onderzoeker kan gebruiken om de volwassenheid van het systeem en de beweringen elders in deze serie te beoordelen.

Village AI is sinds oktober 2025 in productie. Het is een jong systeem dat op bescheiden schaal werkt. Hieronder volgt een technische beschrijving van de gebruikte architectuur.

Modelarchitectuur

Basismodel: een 14B-parameter Qwen2 fine-tune die dient als basislaag voor alle tenants. Getraind op platform operationele inhoud: feature documentatie, navigatie patronen, help query patronen, en community interactie conventies.

Gespecialiseerde lagen: Verfijnde modellen per producttype die worden ingezet via een routeringslaag (model-routing.js). De productiespecialisaties zijn de villageai-14b-{community,whanau,episcopal,family,business}-v1 familie, elk afgestemd op de inhoud van het producttype (de episcopale specialisatie, villageai-14b-episcopal-v1, op Anglicaans liturgisch, pastoraal en bestuurlijk materiaal). Andere producttypes (bijv. conservatie, alumni, diaspora) zijn gepland maar nog niet getraind. Vision-taken (fotoclassificatie, OCR) gaan naar qwen2.5vl:7b.

Modelrouting: Een InferenceRouter selecteert het juiste model op basis van het producttype van de huurder. Als er een specialisatie bestaat voor het producttype van de huurder, wordt deze gebruikt. Een uitgebreid niveau is gedefinieerd in de architectuur, maar nog niet ingevuld.

Inferentiehardware: Primaire inferentie draait op een AMD RX 7900 XTX GPU, toegankelijk via WireGuard VPN vanaf de applicatieserver (OVH France). CPU fallback is beschikbaar met behulp van een 3B-parameter gedegradeerd model voor beschikbaarheid tijdens GPU-uitval. De GPU bevindt zich niet op dezelfde locatie als de applicatieserver - inferentieverzoeken lopen door een VPN-tunnel, waardoor netwerklatentie wordt toegevoegd aan het inferentiepad.

Framework: Inferentie wordt beheerd via Ollama, waarbij de InferenceRouter modelselectie en verzoekroutering afhandelt. Het systeem gebruikt geen inferentie-API van derden; alle inferentie wordt gegenereerd op gecontroleerde infrastructuur.

Opzoeken-Gecontroleerde Generatie

Vectoropslag: Qdrant, waar embeddings van gemeenschapsinhoud (verhalen, aankondigingen, documenten, beschrijvingen van evenementen, bestuursverslagen) worden opgeslagen.

Embeddings-pijplijn: De Embeddingservice verwerkt gemeenschapsinhoud tot vectorrepresentaties. Inhoud wordt gechunked, ingesloten en geïndexeerd per tenant, waarbij strikte isolatie van tenants wordt gehandhaafd op het niveau van de vectoropslag.

Opzoeken tijdens inferentietijd: Gebruikersquery's worden ingesloten en gebruikt voor cosinusvergelijking met het documentencorpus van de huurder. Opgehaalde documenten worden als context geleverd aan het generatormodel, waardoor de antwoorden gebaseerd zijn op de werkelijke inhoud van de gemeenschap.

Inhoud indexeren: Een ContentIndexer service verwerkt nieuwe en bijgewerkte inhoud in de vectoropslag. Indexering respecteert de grenzen van toestemming - inhoud die niet expliciet is gedeeld voor AI-gebruik wordt niet geïndexeerd.

Guardian Agent pijplijn

Elk AI-antwoord gaat door vier Guardian Agent lagen voordat het de gebruiker bereikt. De pijplijn is geïmplementeerd in src/services/guardians/ en is structureel onafhankelijk van het generatiemodel.

Laag 1: AccuracyVerifier

Sluit het antwoord van het model in en berekent de cosinusovereenkomst met de brondocumenten die voor de query zijn opgehaald
Markeert reacties onder een configureerbare similariteitsdrempel
Geeft een grondscore die wordt gebruikt in de vertrouwensindicator voor de gebruiker
Bekende beperking: De cosinusovereenkomst is een semantische nabijheidsmaat, geen feitelijke nauwkeurigheidsgarantie. Twee zinnen kunnen semantisch dicht bij elkaar liggen terwijl ze verschillen op belangrijke details.

Laag 2: HallucinationDetector

Ontleedt antwoorden in afzonderlijke beweringen
Verifieert elke bewering onafhankelijk aan de hand van het broncorpus
Markeert individuele beweringen die niet gefundeerd zijn, zelfs in verder goed gefundeerde antwoorden
Bekende beperking: Claimdecompositie zelf maakt gebruik van taalmodelinferentie, waardoor het afhankelijk is van de mogelijkheden van het model. Misvormde claimdecompositie kan valse negatieven produceren.

Laag 3: AnomalyDetector + DrukMonitor

Volgt de distributieve eigenschappen van modeluitvoer in de loop van de tijd
Detecteert woordenschatafwijkingen, onderwerpafwijkingen en veranderingen in reactiekarakteristieken
PressureMonitor houdt inferentievoorwaarden bij: contextlengte, querycomplexiteit, gelijktijdige belasting
Onder verhoogde druk worden verificatiedrempels aangescherpt en betrouwbaarheidsdrempels verlaagd
Bekende beperking: Anomaliedetectie vereist een basislijnperiode. Voor nieuwe huurders met een beperkte interactiegeschiedenis is de basislijn schaars en is anomaliedetectie minder effectief.

Laag 4: ResponseReviewer + RegressionMonitor + Adaptieve feedback

Verwerkt feedback van leden (thumbs-downsignalen, moderatorcorrecties)
RootCauseClassifier categoriseert faalwijzen
FeedbackInvestigator onderzoekt of fouten systematische patronen vertegenwoordigen
RegressionMonitor houdt bij of eerder gecorrigeerde fouten terugkomen
TrainingPairGenerator creëert trainingsgegevens van bevestigde correcties voor toekomstige fijnafstemmingscycli
Bekende beperking: De feedbacklus is afhankelijk van de betrokkenheid van de leden. Gemeenschappen met een laag feedbackvolume produceren onvoldoende signaal voor zinvolle patroondetectie.

Bescherming tegen voorkeuren

Een PreInferenceProtector werkt vóór het genereren, waarbij invoer wordt gescreend op injectiepatronen en bepaalde typen query's direct naar menselijke beoordeling worden doorgestuurd. Dit is een conservatief filter - het neigt naar blokkeren - en staat los van de post-generatie Guardian pijplijn.

Wat het systeem vandaag kan doen

Gemeenschapsgerichte vraagbeantwoording. Gegeven een vraag over gemeenschapsinhoud ("Wanneer is de volgende sacristievergadering?", "Wat heeft de rector gezegd over het bouwfonds?"), haalt het systeem relevante documenten op en genereert een antwoord dat is gebaseerd op die inhoud. Als er geen relevante documenten worden gevonden, geeft het systeem dit aan in plaats van te genereren op basis van de voorkeuren van het basismodel.

**Het systeem kan conceptbulletins, aankondigingen en correspondentie genereren die de toon en het vocabulaire van de gemeenschap weerspiegelen. Alle concepten worden voor publicatie door een moderator beoordeeld.

Samenvatting van documenten. Lange documenten (notulen van de sacristie, beleidsdocumenten) kunnen worden samengevat met de belangrijkste punten eruit gehaald.

Translation support. Het platform ondersteunt vijf talen: Engels, Duits, Frans, Nederlands en te reo Maori. Vertaling gebruikt DeepL (niet het generatiemodel) voor nauwkeurigheid.

**Feedback van leden wordt automatisch geclassificeerd, waar mogelijk onderzocht en doorgestuurd naar de juiste moderator. Dit is ook het punt waarop het systeem handelt in plaats van alleen maar antwoordt: de ResolutionExecutor streeft naar een hoge mate van automatische oplossing voor routinematige, minder belangrijke gevallen - waarbij het juiste antwoord wordt vergeleken met het corpus en de kennisbank autonoom wordt bijgewerkt - terwijl een gedetecteerd patroon van gerelateerde fouten wordt geëscaleerd voor menselijke beoordeling in plaats van dat er naar wordt gehandeld. Dit is opzettelijk begrensde agency: meerstapsactie beperkt tot de grens van de huurder en tot omkeerbare handelingen, een invulling van het principe van boundary-enforcement (Artikel 3) in plaats van onbeperkte autonomie van de browser/computer. Het is het systeem dat het dichtst in de buurt komt van een "agent" in de zin van 2025-2026, en de beperkingen zijn het punt.

**De DocumentExtractor service verwerkt gescande documenten, maakt de inhoud doorzoekbaar en beschikbaar voor RAG retrieval.

Woordenschat Systeem

Het vocabulairesysteem (product-vocabularies.js, vocabulary.js) past de terminologie van het platform aan het type gemeenschap aan. Dit werkt op twee niveaus:

Interfaceniveau: UI-labels, navigatietermen en functienamen worden vervangen door woordenschat die past bij het domein. Een Episcopale parochie ziet "parochianen", "sacristie bestuur" en "parochie bulletins" in plaats van algemene platformterminologie.

Modelniveau: De woordenschat vormt de context die aan het model wordt gegeven. Als het systeem verwijst naar "parochianen" in plaats van "gebruikers" in de context van de prompt, weerspiegelt de output van het model die framing. Dit is een lichte ingreep - het werkt op het niveau van de prompt, niet op het niveau van het gewicht - maar het vermindert de wrijving tussen de distributieprioriteiten van het model en de terminologie van de gemeenschap.

Er worden negen producttypes gedefinieerd: gemeenschap, familie, behoud, diaspora, clubs, bedrijven, alumni, whanau en bisschoppelijk. Elk heeft een eigen vocabulaire.

Wat nog niet bewezen is

We geven een opsomming van specifieke beweringen die nog niet gevalideerd zijn:

Guardian Agent doeltreffendheid onder contradictoire omstandigheden. Het systeem is niet onderworpen aan systematische red-teaming. Guardian Agent prestaties onder contradictoire prompting, opzettelijke pogingen om hallucinatie op te wekken of gecoördineerde injectieaanvallen zijn onbekend.

Gespecialiseerde laag generalisatie. Er bestaan nu specialisaties voor verschillende producttypes (villageai-14b-{community,whanau,episcopal,family,business}-v1). Of de Specialised Layer-strategie effectief generaliseert - d.w.z. de stille distributieomkering meetbaar vermindert - in deze domeinen en in nog niet getrainde domeinen (instandhoudingsecologie, te reo Maori-culturele contexten, familiegenealogie), is niet empirisch aangetoond. Inzet is geen bewijs van werkzaamheid.

**De similariteitsdrempels die door AccuracyVerifier worden gebruikt, zijn vastgesteld op basis van ontwikkelingstests en vroege productie-ervaring. Ze zijn niet geoptimaliseerd door systematische evaluatie aan de hand van een gelabelde dataset van gegronde en niet-gegronde reacties.

**Het systeem is nu ongeveer acht maanden in productie. Of de prioriteiten van het basismodel zich in de loop van de tijd opnieuw bevestigen - een langzame terugdrijving naar de trainingsdistributie ondanks fijnafstemming - is niet over een voldoende lange tijdshorizon waargenomen om conclusies te trekken.

Meertalige verificatie. Voor gemeenschappen die in andere talen dan het Engels werken, werkt de Guardian Agent pijplijn op inbeddingen van de niet-Engelse tekst. Er is niet systematisch geëvalueerd of cosinusgelijkenisverificatie even effectief is in verschillende talen.

**Het adaptieve feedbackmechanisme (laag 4) is ontworpen om het gedrag van het systeem in de loop van de tijd te verbeteren. Of het convergeert naar stabiele, verbeterde prestaties of oscillerend of afwijkend gedrag vertoont onder bepaalde feedbackpatronen is niet formeel geanalyseerd.

We presenteren dit niet als uitstel maar als open vragen. Het systeem is operationeel; deze vragen zijn nog niet beantwoord.

Infrastructuur

Applicatieserver: OVH Frankrijk (EU-gegevensjurisdictie)
Database: MongoDB met strikte tenantisolatie (elke query gefilterd op tenantId)
Vectoropslag: Qdrant (tenant-gedeelde verzamelingen)
GPU-inferentie: AMD RX 7900 XTX via WireGuard VPN
CPU fallback: 3B gedegradeerd model voor beschikbaarheid
Authenticatie: httpOnly cookies, tenant context isolatie, geen publieke toegang
Deployment: Zelf gehost, geen AI-clouddiensten van derden
Media: Bunny CDN voor edge caching (OVH-server)

Alle inferentie vindt plaats binnen de infrastructuur van de operator. Er worden geen prompts, antwoorden of community-inhoud verzonden naar externe AI-aanbieders.

Dit is artikel 4 van 5 in de serie "Architectural AI Governance at Community Scale". Ga voor de volledige technische architectuur naar Village AI over Agentic Governance.

Vorige: Waarom bestuur in opleidingstijd mislukt - Architecturale beperkingen als alternatief Volgende: Voorbij het model - Platformarchitectuur en bestuurlijke integratie