🤖 AI Research Edition

Landing

Deutsch

Architectural AI Governance at Community Scale - A Technical Examination of Village AI

Für AI/ML-Forscher und Sicherheitsforscher


Eine fünfteilige technische Serie, die einen alternativen Ansatz zur KI-Anpassung untersucht: architektonische Einschränkungen zum Zeitpunkt der Inferenz anstelle von Anpassung durch Training. Geschrieben für Forscher, die mit RLHF, konstitutioneller KI, mechanistischer Interpretierbarkeit und der breiteren Alignment-Literatur vertraut sind.


Die Serie

1. Was KI ist - und wo das Ausrichtungsproblem tatsächlich liegt

Emergentes Denken, Skalierungsgesetze und der Unterschied zwischen Fähigkeit und Kontrollierbarkeit. Warum sich das Ausrichtungsproblem, wie es sich bei eingesetzten Gemeinschaftssystemen darstellt, von dem im Labor untersuchten Ausrichtungsproblem unterscheidet - und warum dieser Unterschied wichtig ist.

2. Basismodelle vs. domänenspezialisierte Inferenz - eine strukturelle Analyse

Verteilungsverschiebung, Basissatzverzerrung und das Problem der stillen Substitution. Wie die Zusammensetzung der Trainingsdaten das Standardverhalten bestimmt, warum Prompting und RLHF die Verteilungsprioritäten am Ende nicht auflösen und was eine Specialised-Layer-Strategie auf einem 8B-Parameter-Modell im Vergleich zu Frontier-Systemen bietet (und opfert).

3. Warum die Trainingszeit-Governance scheitert - Architektureinschränkungen als Alternative

Der 27027-Vorfall als Fallstudie für das Scheitern der Anpassung: ein KI-System, das trotz expliziter Anweisungen stillschweigend die therapeutische Sprache durch die theologische Sprache ersetzt. Warum Feinabstimmung, RLHF und konstitutionelle KI diese Art von Problemen nicht lösen. Guardian Agents als epistemische Trennung - Verifikationssysteme, die strukturell unabhängig von dem Modell sind, das sie überwachen.

4. Was ist Live in der Produktion - eine ungeschminkte Bestandsaufnahme

Das aktuelle System: villageai-8b-corrected-v4, Specialised Layer fine-tuning, AMD RX 7900 XTX Inferenz über WireGuard mit CPU Fallback, Kosinus-Ähnlichkeitsprüfung gegen Quelldokumente, vier Guardian Agent Schichten und eine adaptive Feedbackschleife. Was funktioniert, was unbewiesen bleibt und wo wir uns der Grenzen bewusst sind.

5. Jenseits des Modells - Plattformarchitektur und Governance-Integration

KI als eine Komponente innerhalb einer souveränen Gemeinschaftsplattform. Wie sich architektonische Einschränkungen über das Modell hinaus auf die Datenisolierung, die Zustimmungsarchitektur, das Vokabular-gesteuerte Framing und die föderierte, gemeinschaftsübergreifende Governance ausweiten. Was dieser Ansatz an Fähigkeiten einbüßt und was er an Verifizierbarkeit gewinnt.


Für wen ist das?

Diese Artikel richten sich an Forscher, die sich mit KI-Alignment, Sicherheit, Interpretierbarkeit und Governance beschäftigen. Vorausgesetzt wird die Vertrautheit mit Transformator-Architekturen, Feinabstimmungsmethoden, Verstärkungslernen aus menschlichem Feedback und der aktuellen Alignment-Literatur.

Der Beitrag ist nicht theoretisch. Es handelt sich um die Beschreibung eines installierten Systems, das seit Oktober 2025 in Betrieb ist und einen anderen Ansatz für das Ausrichtungsproblem verfolgt: architektonische Beschränkungen zum Zeitpunkt der Inferenz anstelle von Ausrichtung durch Training. Der Ansatz ist noch jung, arbeitet in bescheidenem Umfang und wurde noch nicht unabhängig evaluiert. Wir präsentieren ihn als Fallstudie, nicht als Lösung.

Wir sind offen für Einschränkungen. Ein 8B-Parametermodell mit Domänenspezialisierung kann es nicht mit Grenzsystemen für allgemeine Fähigkeiten aufnehmen. Die Guardian Agent Architektur erhöht die Latenzzeit. Die Kosinus-Ähnlichkeitsprüfung hängt von der Qualität und dem Umfang des Quelldokumentkorpus ab. Dies sind echte Kompromisse, die wir durchgehend diskutieren.

Weitere Lektüre


Serie: Architektonische KI-Governance auf Gemeinschaftsebene - Eine technische Untersuchung von Village AI Autor: My Digital Sovereignty Ltd Datum: März 2026 Lizenz: CC BY 4.0 International

Published under CC BY 4.0 by My Digital Sovereignty Ltd. You are free to share and adapt this material, provided you give appropriate credit.