Tier 3 · Guard & build3.218 min

Tester votre agent

A snow-capped peak mirrored in a still alpine lake, tussock along the shore

Les garde-fous constituent une affirmation : cet agent se comporte comme prévu. Les tests permettent de vérifier si cette affirmation est vraie — avant que l’agent ne soit mis en production sur des tâches réelles, puis à nouveau à mesure que les outils sous-jacents évoluent. C’est le principe d’Anchor 2, l’amélioration continue, dans sa forme la plus concrète : vous ne faites pas confiance à l’agent parce que vous l’avez conçu avec soin ; vous lui faites confiance parce que vous l’avez vérifié, et que vous continuez à le vérifier.

Il existe deux types de tests, et celui dont vous avez besoin dépend de ce que l’agent traite.

Test n° 1 — contrôles ponctuels de précision (pour les agents qui gèrent votre travail)

Pour un comptable qui effectue des rapprochements, un analyste de la concurrence qui recueille des prix ou un analyste de marché qui résume les tendances, l’échec se traduit par un chiffre erroné ou une estimation hasardeuse. Le test consiste en une vérification proportionnée : prélevez un échantillon des résultats de l’agent et comparez-le vous-même à la source .

Effectuez un échantillonnage de manière ciblée. Une poignée à chaque cycle, plus les cas limites — les chiffres les plus importants, ceux qui semblent anormaux, ceux pour lesquels une erreur coûterait le plus cher.
Vérifiez par rapport à la source, et non par rapport au résumé fourni par l’agent lui-même. L’objectif est de surprendre l’agent en train de se tromper avec assurance, et il ne peut pas se détecter lui-même.
Effectuez des vérifications proportionnelles au coût d’une erreur. Une note interne mal classée nécessite un simple coup d’œil ; un chiffre destiné à un client ou au service des impôts nécessite une vérification approfondie.

Rien de tout cela n’a d’extraordinaire. Il s’agit de l’habitude de vérification issue de vos mesures de sécurité, appliquée à un système qui ne se fatigue jamais et ne vous signale jamais ses incertitudes, à moins que vous ne l’ayez conçu pour cela.

Test n° 2 — test d’impact négatif (pour les agents qui ont un impact sur les personnes)

Voici le test le plus important et le moins souvent réalisé. Lorsqu’un agent juge des personnes — le recruteur, ou tout autre système qui trie, note ou filtre des êtres humains —, il est impossible de déterminer si son jugement est équitable à première vue. Le niveau 2 a montré pourquoi : les biais s’insinuent dans les indicateurs que vous avez définis, et 60 % des personnes ne remarquent pas un biais de 10 % qui se trouve juste sous leurs yeux. L’évaluation à l’œil nu ne fonctionne pas. La mesure, oui.

Le test de permutation des noms — lancez-le sur votre propre agent. Prenez une candidature. Traitez-la. Maintenant, ne changez que le nom — remplacez un nom masculin par un nom féminin, un nom manifestement de type Pākehā par un nom manifestement de type Māori ou Pasifika ou un nom asiatique — ne changez rien d’autre, puis relancez-la. Le score évolue-t-il ? Répétez l’opération sur un lot entier. Si l’identité que vous pensiez avoir supprimée continue d’influencer le résultat, vous venez d’observer la fuite de données par proxy de niveau 2 se produire dans votre propre version. Consignez vos conclusions.

Tests d’impact négatif — mesurez les résultats selon les groupes. Ne testez pas les intentions de l’agent ; testez ses résultats. Observez qui est favorisé et qui est écarté, ventilé par groupe, sur un lot réel. Si un groupe est sélectionné à un taux nettement inférieur à celui d’un autre, vous êtes en présence d’un impact négatif — que cela ait été intentionnel ou non, et quelle que soit l’apparente équité des critères sur le papier.

Une règle empirique largement utilisée pour définir ce qu’est « nettement inférieur » est la règle des quatre cinquièmes (80 %): si le taux de sélection d’un groupe est inférieur à 80 % de celui du groupe le plus élevé, c’est le seuil établi pour constatation d’impact négatif. Soyez clair sur ce dont il s’agit : il s’agit d’un critère de diagnostic issu du droit du travail américain, un seuil pratique issu de la pratique américaine — utile comme référence, mais pas en tant que loi néo-zélandaise. En Nouvelle-Zélande, le cadre juridique est celui de la discrimination indirecte au titre de la loi sur les droits de l’homme (Human Rights Act) : une pratique qui semble neutre à première vue mais qui touche de manière disproportionnée un groupe protégé peut être illégale même en l’absence d’intention discriminatoire. La règle des quatre cinquièmes est un moyen pratique de repérer le problème ; c’est la Loi sur les droits de l’homme (HRA) qui explique son importance dans ce contexte. (Il s’agit d’une information générale, et non d’un conseil juridique.)

À quoi sert ce test ?

Le test n’est pas une étape que l’on franchit une fois pour toutes. C’est ce qui permet de :

Détecte ce que la conception ne peut pas détecter — le seul moyen de repérer le biais qui a survécu à votre expurgation.
Concrétise le contrôle humain — un réviseur s’appuyant sur « nous avons mesuré, et il y a un biais contre ce groupe » peut réellement résister aux biais de l’automatisation. Un réviseur qui se contente d’un simple coup d’œil ne le peut pas.
S’adapte à un domaine en constante évolution — les modèles gérés par votre agent changent. Un test que vous pouvez réexécuter vous permet de vérifier que ce qui était « correct » le mois dernier l’est toujours.

Et parfois, c’est justement le test qui vous indique qu’il faut arrêter. Si vous mesurez et que le biais persiste quoi que vous ajustiez, ce n’est pas un échec de la version — c’est la version qui vous enseigne la réponse honnête sur laquelle repose le Recruteur : certaines décisions concernant les personnes ne devraient pas être automatisées du tout.

Prenons l’exemple d’un agent que vous pourriez développer et qui a un impact sur les personnes. Pourriez-vous réellement y appliquer le test de permutation des noms ? Disposez-vous des données nécessaires, et seriez-vous prêt à examiner le résultat en toute honnêteté s’il s’avérait biaisé ? Si ce n’est pas le cas, cela vaut la peine de le savoir avant de le développer, et non après.

Assez de théorie — passons à la pratique. Deux agents avec Claude Code : l’un que vous créez pour qu’il fonctionne, et l’autre que vous créez pour le voir échouer.

Partagé librement, en toute bonne foi. Si cela vous a été utile, un koha destiné à couvrir les frais de développement et de fonctionnement est le bienvenu.

Laissez un koha →

← 3.1 3.3 →

Tester votre agent

Test n° 1 — contrôles ponctuels de précision (pour les agents qui gèrent votre travail)

Test n° 2 — test d’impact négatif (pour les agents qui ont un impact sur les personnes)

À quoi sert ce test ?

Suivant