Tier 3 · Guard & build3.218 min

Testen Ihres Agenten

A snow-capped peak mirrored in a still alpine lake, tussock along the shore

Sicherheitsvorkehrungen sind eine Behauptung: Dieser Agent verhält sich wie vorgesehen. Durch Tests findest du heraus, ob diese Behauptung zutrifft – bevor der Agent bei der echten Arbeit zum Einsatz kommt und dann erneut, wenn sich die zugrunde liegenden Tools ändern. Das ist Anchor 2, kontinuierliche Verbesserung, in ihrer konkretesten Form: Man vertraut dem Agenten nicht, weil man ihn sorgfältig entwickelt hat; man vertraut ihm, weil man ihn überprüft hat und weiterhin überprüft.

Es gibt zwei Arten von Tests, und welche du benötigst, hängt davon ab, womit der Agent in Berührung kommt.

Test 1 – Stichproben zur Überprüfung der Genauigkeit (für Agenten, die Ihre Arbeit erledigen)

Bei einem Buchhalter, der Konten abstimmt, einem Wettbewerbsanalysten, der Preise ermittelt, oder einem Marktanalysten, der Trends zusammenfasst, ist ein Fehler eine falsche Zahl oder eine unüberprüfte Schätzung. Der Test besteht in einer verhältnismäßigen Überprüfung: Man nimmt eine Stichprobe der Ausgabe des Agenten und vergleicht sie selbst mit der Quelle .

Wählen Sie die Stichprobe bewusst aus. Eine Handvoll pro Durchlauf, dazu die Grenzfälle – die größten Zahlen, die seltsam aussehenden, jene, bei denen ein Fehler am meisten kosten würde.
Vergleichen Sie mit der Quelle, nicht mit der eigenen Zusammenfassung des Mitarbeiters. Es geht darum, den Mitarbeiter dabei zu erwischen, wie er selbstbewusst falsch liegt, und das kann er nicht selbst erkennen.
Prüfen Sie im Verhältnis zu den Kosten eines Fehlers. Eine falsch abgelegt interne Notiz erfordert nur einen flüchtigen Blick; eine Zahl, die an einen Kunden oder das Finanzamt geht, muss gründlich geprüft werden.

Nichts davon ist außergewöhnlich. Es ist die Überprüfungsgewohnheit aus Ihren Sicherheitsvorkehrungen, angewandt auf einen Mitarbeiter, der niemals müde wird und Ihnen niemals mitteilt, wenn er unsicher ist – es sei denn, Sie haben ihn so programmiert.

Test zwei – Test auf nachteilige Auswirkungen (für Agenten, die Menschen betreffen)

Hier ist der Test, der am wichtigsten ist und am seltensten durchgeführt wird. Wenn ein Agent Menschen bewertet – der Personalvermittler oder alles, was Menschen sortiert, bewertet oder filtert –, kann man nicht allein durch Betrachten erkennen, ob dies fair ist. Stufe 2 zeigte, warum: Voreingenommenheit schleicht sich über Stellvertreter ein, die Sie umgangen haben, und 60 % der Menschen übersehen eine 10-prozentige Verzerrung, die direkt vor ihren Augen liegt. Mit bloßem Auge geht das nicht. Messen funktioniert.

Der Test mit dem Namenstausch – führen Sie ihn mit Ihrem eigenen Agenten durch. Nehmen Sie eine Bewerbung. Lassen Sie sie durchlaufen. Ändern Sie nun nur den Namen – tauschen Sie einen männlichen Namen gegen einen weiblichen aus, einen offensichtlich nach dem Muster Pākehā geformten Namen gegen einen offensichtlich nach dem Muster Māori oder Pasifika oder einen asiatischen Namen – ändern Sie sonst nichts und führen Sie den Test erneut durch. Verändert sich die Punktzahl? Wiederholen Sie dies für einen ganzen Stapel. Wenn eine Identität, von der Sie dachten, Sie hätten sie entfernt, das Ergebnis immer noch beeinflusst, haben Sie gerade beobachtet, wie das Proxy-Leck aus Tier 2 in Ihrem eigenen Build auftritt. Dokumentieren Sie Ihre Ergebnisse.

Tests auf nachteilige Auswirkungen – messen Sie die Ergebnisse über verschiedene Gruppen hinweg. Testen Sie nicht die Absichten des Agenten, sondern seine Ergebnisse. Schauen Sie sich an, wen er begünstigt und wen er aussortiert, aufgeschlüsselt nach Gruppen, über einen echten Datensatz hinweg. Wenn eine Gruppe mit einer deutlich geringeren Rate ausgewählt wird als eine andere, liegt eine nachteilige Auswirkung vor – unabhängig davon, ob jemand dies beabsichtigt hat, und unabhängig davon, wie fair die Kriterien auf dem Papier aussahen.

Eine weit verbreitete Faustregel für „deutlich niedriger“ ist die Vier-Fünftel-Regel (80 %): Liegt die Auswahlquote einer Gruppe unter 80 % derjenigen der Gruppe mit der höchsten Quote, gilt dies als etabliertes Anzeichen für nachteilige Auswirkungen. Machen Sie sich klar, worum es sich hierbei handelt: Es handelt sich um ein Diagnosekriterium des US-Arbeitsrechts, einen praktischen Schwellenwert aus der amerikanischen Praxis – nützlich als Maßstab, nicht als neuseeländisches Recht. In Neuseeland ist der rechtliche Rahmen die indirekte Diskriminierung gemäß dem Human Rights Act: Eine Praxis, die auf den ersten Blick neutral erscheint, aber eine geschützte Gruppe unverhältnismäßig stark belastet, kann auch ohne Diskriminierungsabsicht rechtswidrig sein. Die Vier-Fünftel- Regel ist eine praktische Methode, um das Problem zu erkennen; der HRA ist der Grund, warum sie hier von Bedeutung ist. (Allgemeine Aufklärung, keine Rechtsberatung.)

Wozu der Test dient

Das Testen ist kein Tor, das man einmal passiert und dann vergisst. Es ist das, was:

das aufdeckt, was das Design gegen Proxy-Lecks nicht erkennen kann – der einzige Weg, die Voreingenommenheit zu erkennen, die Ihre Redaktion überstanden hat.
Die menschliche Kontrollinstanz real macht – ein Prüfer, der sich auf die Feststellung stützen kann: „Wir haben gemessen, und es gibt eine Verzerrung zugunsten dieser Gruppe“, kann der Automatisierungsverzerrung tatsächlich entgegenwirken. Ein Prüfer, der nur einen flüchtigen Blick darauf wirft, kann das nicht.
Mit einem sich wandelnden Umfeld Schritt hält – die Modelle unter deinem Agenten ändern sich. Ein Test, den du erneut ausführen kannst, ist der Weg, um zu wissen, ob das „in Ordnung“ vom letzten Monat immer noch in Ordnung ist.

Und manchmal ist es gerade der Test, der dir sagt, dass du aufhören sollst. Wenn du misst und die Verzerrung sich trotz aller Anpassungen nicht beseitigen lässt, ist das kein fehlgeschlagener Build – das ist der Build, der dir die ehrliche Antwort vermittelt, um die es beim Recruiter geht: Manche Entscheidungen über Menschen sollten überhaupt nicht automatisiert werden.

Nehmen wir einen Agenten, den du entwickeln könntest und der Auswirkungen auf Menschen hat. Könntest du tatsächlich die „Name-Swap“-Prüfung darauf anwenden – hast du die Daten, und würdest du das Ergebnis ehrlich betrachten, wenn es verzerrt zurückkäme? Wenn nicht, ist es wichtig, das vor der Entwicklung zu wissen, nicht erst danach.

Weiter

Genug Theorie – wir entwickeln. Zwei Agenten mit Claude Code: einen, den du so entwickelst, dass er funktioniert, und einen, den du entwickelst, um zu sehen, wie er versagt.

Kostenlos und in gutem Glauben geteilt. Wenn es für dich von Nutzen war, ist ein koha zur Unterstützung der Entwicklungs- und Betriebskosten herzlich willkommen.

Ein koha hinterlassen →

← 3.1 3.3 →