A Production System Under Examination - Was heute eingesetzt wird

Reihe: Community-Scale AI Governance - Eine Forschungsperspektive auf die Village Platform (Artikel 4 von 5) Autor: My Digital Sovereignty Ltd Datum: März 2026 Lizenz: CC BY 4.0 International

Anwendungsbereich und Zielsetzung

Dieser Artikel enthält eine Bestandsaufnahme dessen, was derzeit in der Village-Plattform eingesetzt wird, was noch in der Entwicklung ist und wo die Lücke zwischen architektonischer Absicht und betrieblicher Realität am größten ist. Er wurde in dem Bewusstsein verfasst, dass ein Forschungspublikum Offenheit in Bezug auf die Systemreife verlangt - was funktioniert, was noch nicht funktioniert und was noch nicht getestet wurde.

Die Plattform ist seit Oktober 2025 in Betrieb. Sie dient einer kleinen Anzahl von Gemeinschaften. Die Einsatzbasis reicht nicht aus, um statistische Aussagen über die Wirksamkeit zu machen, und dieser Artikel enthält keine solchen Aussagen.

Operative Fähigkeiten

Zum Zeitpunkt der Abfassung dieses Artikels sind die folgenden Funktionen implementiert und einsatzbereit:

Inhaltsbezogene Anfragebeantwortung

Das KI-Subsystem antwortet auf die Anfragen der Mitglieder, indem es Informationen aus dem gemeinschaftseigenen Dokumentenkorpus - Ankündigungen, gemeinsame Erzählungen, Veranstaltungsberichte, organisatorische Dokumente - abruft und zusammenfasst. Die Antworten werden vor der Auslieferung von der Schicht Guardian Agent mit dem Korpus abgeglichen.

Was funktioniert: Bei Abfragen, die sich direkt auf dokumentierte Inhalte beziehen ("Wann ist das nächste Treffen?", "Was wurde über den Baufonds beschlossen?"), erzeugt das System fundierte, überprüfbare Antworten. In der Mehrzahl der beobachteten Fälle identifiziert die semantische Basisschicht die relevanten Quelldokumente korrekt.

Was nicht zuverlässig funktioniert: Bei Abfragen, die Schlussfolgerungen über mehrere Dokumente hinweg erfordern oder Themen ansprechen, die in den Aufzeichnungen der Gemeinschaft nur spärlich behandelt werden, verschlechtert sich die Ausgabequalität. Das System kann plausible, aber unbegründete Antworten produzieren, die mit Indikatoren für geringes Vertrauen gekennzeichnet sind, auf die nicht alle Benutzer achten.

Was noch nicht getestet wurde: Die Leistung des Systems bei gegnerischen Abfragen, d. h. bei absichtlichen Versuchen, unbegründete oder unangemessene Ausgaben zu erzeugen, wurde nicht systematisch bewertet. Informelle Tests deuten darauf hin, dass die Boundary-Enforcement-Schicht viele unerwünschte Muster abfängt, aber eine formale Bewertung durch das Red-Team wurde nicht durchgeführt.

Unterstützung bei der Ausarbeitung

Die KI hilft bei der Abfassung von Mitteilungen der Gemeinschaft - Ankündigungen, Bulletins, Korrespondenz. Die Entwürfe werden auf der Grundlage der bestehenden Inhaltsmuster der Gemeinschaft erstellt und vor der Verteilung von den Moderatoren geprüft.

Einschränkung: Die Qualität der Entwürfe des Systems wird direkt durch den Umfang und die Qualität der vorhandenen Inhalte der Gemeinschaft eingeschränkt. Bei Gemeinschaften mit wenigen Einträgen neigen die Entwürfe dazu, auf die Verteilungsvorgaben des Basismodells zurückzugreifen - genau die Art von Fehlverhalten, die die Architektur verhindern soll. Die Abhilfemaßnahme (Überprüfung durch den Moderator) ist wirksam, führt aber zu einem menschlichen Engpass.

Dokumentenzusammenfassung

Lange Dokumente und Sammlungen von Ankündigungen können zusammengefasst werden. Diese Fähigkeit ist einfach und wird von der derzeitigen LLM-Technologie gut unterstützt.

Mehrsprachige Unterstützung

Die Plattform unterstützt fünf Sprachen: Englisch, Deutsch, Französisch, Niederländisch und Te Reo Maori. Die Übersetzung erfolgt durch einen speziellen Übersetzungsdienst (DeepL), nicht durch den LLM. Diese architektonische Entscheidung - die Trennung von Übersetzung und Generierung - vermeidet den bekannten Fehlermodus von LLM-generierten Übersetzungen, die die Bedeutung verändern, während die Sprachflüssigkeit erhalten bleibt.

Triage von Rückmeldungen

Das Feedback der Mitglieder wird automatisch klassifiziert, wenn möglich untersucht und an die zuständigen Mitarbeiter weitergeleitet. Das Triage-System verwendet eine Ursachen-Klassifizierung, um Muster im Feedback zu erkennen und systemische Probleme zu eskalieren.

Was funktioniert: Routine-Feedback (Feature-Anfragen, Navigationsfragen, Inhaltsanfragen) wird in der Mehrzahl der beobachteten Fälle korrekt klassifiziert und bearbeitet.

Was nicht zuverlässig funktioniert: Feedback, das einen nuancierten zwischenmenschlichen Kontext oder gemeinschaftsspezifische kulturelle Bezüge beinhaltet, wird manchmal falsch klassifiziert. Die Fehlerquote des Systems für kultursensibles Feedback wurde nicht formell gemessen.

Das Vokabularsystem: Linguistisches Framing als Steuerung

Die Plattform implementiert ein Vokabularsystem, das alle benutzerseitige Terminologie an den Gemeinschaftstyp anpasst. Eine Forschungsgruppe sieht "Forschungsgruppe" und "Mitarbeiter"; eine Naturschutzgesellschaft sieht "Mitglieder" und "Naturschutzprojekte"; eine Kirchengemeinde sieht "Gemeindemitglieder" und "Kirchenvorstand"

Dies ist kein kosmetisches Merkmal. Das Vokabular prägt den Bezugsrahmen der KI für die Interpretation von Abfragen und die Generierung von Antworten. Wenn das System eine Anfrage im Kontext eines Vokabulars verarbeitet, das "Mitarbeiter" anstelle von "Benutzern" verwendet, verschiebt sich die Antwortverteilung hin zu einem kollaborativen und gemeinschaftlichen Framing.

Forschungsinteresse: Das Vokabularsystem bietet ein natürliches Experiment, um zu untersuchen, wie sprachliches Framing die Verteilung der KI-Ausgaben beeinflusst. Ein systematischer Vergleich der Outputs verschiedener Vokabular-Konfigurationen - wobei die Abfrage konstant gehalten und das Vokabular variiert wird - würde die Hypothese testen, dass sich terminologische Änderungen auf der Oberflächenebene zu substanziellen Framing-Unterschieden in den Outputs fortpflanzen. Dieses Experiment wurde noch nicht durchgeführt, ist aber mit der vorhandenen Infrastruktur machbar.

Einschränkung: Das Vokabularsystem arbeitet auf der Ebene der Terminologie, nicht auf der Ebene des konzeptionellen Rahmens. Die Änderung von "Nutzern" in "Mitarbeitern" verschiebt zwar die Verteilungsoberfläche, ändert aber nicht die tieferen strukturellen Annahmen des Basismodells. Wie stark sich das Vokabularsystem auf die Qualität der Ergebnisse auswirkt, ist eine offene Frage.

Guardian Agent Leistung

Die vier Schichten von Guardian Agent sind eingerichtet und einsatzbereit. Ihre Leistungsmerkmale, soweit sie derzeit beobachtbar sind:

Semantische Grundlage (Guardian 1): Identifiziert relevante Quelldokumente für einfache Abfragen korrekt. Die Leistung verschlechtert sich bei der Inferenz aus mehreren Dokumenten und bei Abfragen, die implizites Wissen erfordern, das nicht direkt in den Quelldokumenten enthalten ist.

Aufschlüsselung von Behauptungen (Guardian 2): Isoliert erfolgreich einzelne Behauptungen in strukturierten Antworten. Weniger effektiv bei Antworten, die Behauptungen in komplexe syntaktische Strukturen einbetten oder Behauptungen implizit durch Framing statt durch explizite Aussagen ausdrücken.

Driftüberwachung (Guardian 3): In Betrieb, aber der Einsatzzeitraum ist zu kurz, um eine aussagekräftige Längsdrift zu erkennen. Das System verfügt über Basismessungen; ob es allmähliche Verteilungsverschiebungen über Monate oder Jahre hinweg erkennen kann, ist noch nicht getestet worden.

Adaptives Feedback (Guardian 4): Bezieht das Feedback von Mitgliedern und Moderatoren in die Überprüfungsschwellenwerte ein. Das Feedbackvolumen der derzeitigen Einsatzbasis ist gering, was die Fähigkeit des Systems einschränkt, gemeinschaftsspezifische Muster zu lernen. Dies ist ein Bootstrapping-Problem: Das System verbessert sich mit dem Feedback, aber die Gemeinschaften in der Anfangsphase liefern nicht genügend Feedback, um das System wesentlich zu verbessern.

Was bleibt in der Entwicklung?

Die folgenden Komponenten sind konzipiert, aber noch nicht voll einsatzfähig:

Optimierung des Modellroutings. Das System verfügt über zwei Modellebenen - ein schnelleres, kleineres Modell für Routineabfragen und ein größeres Modell für komplexe Schlussfolgerungsaufgaben. Die Routing-Logik, die bestimmt, welche Abfragen an welches Modell gehen, ist funktionsfähig, aber nicht optimiert. Einige Abfragen, die von einer tieferen Verarbeitung profitieren würden, werden derzeit von dem schnelleren Modell bearbeitet, was zu qualitativ schlechteren Antworten führt.

Individuelle Personalisierung. Das System arbeitet derzeit auf Gemeinschaftsebene - es kennt den Inhalt der Gemeinschaft, modelliert aber nicht die Präferenzen oder Interaktionsmuster der einzelnen Mitglieder. Eine Personalisierung auf individueller Ebene ist geplant, wirft aber zusätzliche Governance-Fragen auf (Einwilligung, Profiling, Filterblasen), die noch nicht geklärt sind.

**Die Governance-Architektur setzt kompetente Moderatoren voraus, die KI-Ergebnisse überprüfen und korrigierendes Feedback geben können. Ein strukturiertes Schulungsprogramm für Moderatoren wurde entwickelt, befindet sich aber noch in einem frühen Stadium der Einführung. Die Qualität der Governance hängt direkt von der Kompetenz der Moderatoren ab, die derzeit unterschiedlich ist.

In der Praxis beobachtete Misserfolgsmodi

Transparenz über beobachtete Fehler ist ein notwendiger Bestandteil jeder glaubwürdigen Systembeschreibung:

Zuversichtliche Erzeugung unbegründeter Behauptungen. Gelegentlich produziert das System Antworten, die autoritativ klingen, aber nicht von den Aufzeichnungen der Gemeinschaft gestützt werden. Die Schicht Guardian Agent fängt viele dieser Antworten ab, aber nicht alle - vor allem, wenn die unbegründete Behauptung semantisch dem tatsächlichen Inhalt ähnlich ist.

Durchsickern des Vokabulars. Bei komplexen Abfragen überschreibt das Standardvokabular des Basismodells manchmal das Community-spezifische Vokabular. Dies ist das in Artikel 1 beschriebene Problem der Verteilungsdrift, das durch das Vokabularsystem zwar teilweise gemildert, aber nicht beseitigt wird.

Feedback-Spärlichkeit. Gemeinschaften in frühen Stadien der Einführung erzeugen nicht genügend Feedback, damit die adaptiven Lernmechanismen effektiv funktionieren können. Dies führt zu einem Kaltstartproblem, bei dem das System genau dann am wenigsten gut kalibriert ist, wenn die Gemeinschaft es am meisten braucht, um zuverlässig zu sein.

Moderatorenmüdigkeit. Die Governance-Architektur belastet die freiwilligen Moderatoren mit einer erheblichen Prüfungslast. In Gemeinschaften, in denen die Rolle des Moderators unterbesetzt ist, sinkt die Qualität der Überprüfungen, was die Effektivität der von Menschen geprägten Governance-Ebene verringert.

Was dies für die Forschung bedeutet

Die Village-Plattform ist in ihrem jetzigen Zustand ein funktionierender Prototyp einer KI-Governance auf Gemeinschaftsebene. Es handelt sich nicht um ein ausgereiftes, validiertes System. Die architektonischen Prinzipien sind implementiert, aber die empirischen Beweise für ihre Wirksamkeit sind vorläufig.

Für die Forscher stellt dies sowohl eine Einschränkung als auch eine Chance dar. Die Einschränkung besteht darin, dass Behauptungen über die Wirksamkeit des Rahmens noch nicht durch strenge Beweise untermauert werden können. Die Chance besteht darin, dass die Plattform eine Live-Forschungsumgebung bietet - ein operationelles System mit instrumentierten Governance-Ebenen, das in verschiedenen Community-Typen eingesetzt wird -, in der Hypothesen über KI-Governance empirisch getestet werden können.

Die Autoren freuen sich über die Zusammenarbeit mit Forschern, die an der Evaluierung der Aussagen des Frameworks interessiert sind. Die Codebasis ist quelloffen, die Governance-Protokolle stehen den Moderatoren der Community zur Verfügung, und die Architektur ist so konzipiert, dass sie die Art der Instrumentierung unterstützt, die für die empirische Governance-Forschung erforderlich ist.

Dies ist Artikel 4 von 5 in der Serie "Community-Scale AI Governance". Die vollständige technische Architektur finden Sie unter Village AI on Agentic Governance.

Zurück: Warum politikbasierte KI-Governance unzureichend ist - Die strukturelle Alternative Nächste: Die Plattform jenseits der KI - Gemeinschaftsinfrastruktur als Forschungskontext