Tier 3 · Guard & build3.512 min

Op welk modelniveau draait je agent

A fiery orange-and-pink sunset over a harbour ringed by dark hills

In de vorige les werd één vraag over je model gesteld: op wiens computer draait het? (beheer). Deze les behandelt de andere helft: op welk modelniveau moet deze agent draaien? Als je één agent draait, maakt het nauwelijks uit. Als je er meerdere draait, of één ervan dagelijks, wordt het een echte afweging — over kosten en over kwaliteit — en is het Anker 2, continue verbetering, in een heel concrete vorm: zet de capaciteit in waar het zijn geld waard is, en geen dollar meer.

De twee instincten die allebei falen

„Gebruik altijd het beste.” Comfortabel, duur, en het leert je niets over waar het geld daadwerkelijk werk verricht. „Gevoel” — deze agent voelt belangrijk aan, dus krijgt hij het topmodel. Maar hoe belangrijk een agent aanvoelt, hangt nauwelijks samen met het specifieke soort moeilijkheid dat een sterker model daadwerkelijk aanpakt. De meeste agenten worden niet beperkt door de capaciteit van het model; ze worden beperkt door een vage opdracht of rommelige invoer, en een groter model lost geen van beide op.

Het gedisciplineerde antwoord is dezelfde triage die de hele cursus heeft bijgebracht, gericht op je galerij: beoordeel elke agent op de kenmerken die een sterker model daadwerkelijk belonen, en betaal de topklasse alleen waar die kenmerken aanwezig zijn.

Waar de topklasse zijn geld waard is — in je hele galerij

Redeneringshefboom — lange ketens waarin een vroege fout zich ongemerkt opstapelt. Een boekhouder die afstemmingen controleert aan de hand van één geschreven regel heeft een lage hefboom; een goedkoper niveau doet dit prima. Een agent die een beslissing neemt die zich over vele documenten uitstrekt, heefteen hoge hefboom.
Synthesehefboomwerking — het verzoenen van bronnen die het oneens zijn, en adversariaal lezen (wat een bron weglaat). Je markt- of concurrentieanalist, die tegenstrijdige rapporten afweegt, is waar de topklasse zich onderscheidt.
Strategische diepgang — waar een middelmatig antwoord niet verkeerd is, maar oppervlakkig, en die oppervlakkigheid kost je punten. Een goedkoper model vat samen; een sterker model merkt de invalshoek op die je beslissing beïnvloedt.

En de twee dingen die een groter model niet zal oplossen — wat de eerdere niveaus je al hebben geleerd:

Het verzinnen van dingen wordt in toom gehouden door onderbouwing — bronnen, criteria, een menselijke controle (de vangrails van niveau 3), niet door de prijs van het model.
Vooringenomenheid neemt niet betrouwbaar af met het niveau. De les van de recruiter geldt nog steeds: je koopt je niet vrij van een eerlijkheidsprobleem met een duurder model — je bepaalt de omvang ervan, test het en soms wijs je het af.

Dan twee eenvoudige controles: gereedheid — een agent die veel capaciteit nodig heeft en een vage opdracht krijgt, zorgt voor dure verwarring, niet voor briljante resultaten — en volume — prijs per niveau doet er nauwelijks toe voor een agent die één keer per week draait, maar wordt steeds belangrijker voor een agent die de hele dag draait.

De stap die het modelonafhankelijk houdt

Dit is waarom dit naadloos aansluit bij de vorige les in plaats van ermee in conflict te komen: het raamwerk maakt het niet uit van wie het model is. Het laat zien waar capaciteit zijn geld waard is — en dat geldt net zo goed voor de soevereine, in Nieuw-Zeeland of de EU gehoste modellen uit les 3.4 als voor elke openbare frontier-laag. De twee vragen vormen dus samen één raster:

Wiens computer (beheer) — bepaald door wat de agent aanraakt.
Welk niveau (capaciteit) — bepaald door de vraag of het werk van de agent een sterker model rechtvaardigt.

Een agent die met gevoelige gegevens werkt, hoort thuis op soevereine infrastructuur, ongeacht het niveau; een agent die veel capaciteit nodig heeft voor niet-gevoelig werk kan kiezen voor het sterkste beschikbare niveau. Je wijst bewust toewijzingen toe op beide assen, in plaats van de hele vloot standaard naar de duurste optie te sturen.

Het niveau zorgvuldig benoemen

Op het moment van schrijven is het meest capabele, algemeen beschikbare model Claude Fable 5, boven de niveaus Opus, Sonnet en Haiku — maar dat is nu juist het soort feit dat snel veroudert: namen, capaciteiten en prijzen veranderen vaak, en ook de beschikbare opties verschuiven. De blijvende conclusie is simpelweg dat een hoger niveau meer capaciteit heeft dan de niveaus daaronder. Raadpleeg voor actuele details de bron (anthropic.com/news, docs.claude.com) in plaats van af te gaan op een cursuspagina uit je geheugen — dezelfde discipline met betrekking tot bewijs die je ook zou eisen van de agent zelf. (De wetgevingsmonitor van deze cursus houdt in de gaten wanneer deze feiten veranderen.)

De opbouwstap

Beoordeel elke agent op redeneringsvermogen, synthese en strategische diepgang. Twee van de drie hoog → een kandidaat voor de hoogste laag. Anders eerlijk gezegd een goedkopere laag.
Laat blootstelling aan hallucinaties of vooringenomenheid de categorie niet omhoog duwen — dat zijn taken voor de basis- en reikwijdtecategorieën.
Voer vervolgens het goedkope experiment uit: test een kandidaat één keer in je huidige categorie en één keer in de topcategorie, en vergelijk de resultaten zelf. De beoordeling geeft aan waar het experiment de moeite waard is; het experiment onthult de waarheid.

Neem de agenten in je galerij. Voor welke zou je daadwerkelijk het hoogste niveau betalen — en kun je aangeven welke van redenering, synthese of strategische diepgang dit rechtvaardigt? Als het eerlijke antwoord is “het voelt gewoon belangrijk”, dan is dat het instinct dat deze les juist komt controleren.

Vervolgens

Dat was het ‘bewaken en bouwen’-niveau: reikwijdte, criteria, vangrails, testen, de twee builds en de twee vragen over je model — wiens computer en welk niveau. Niveau 4 zet de agent aan het werk en houdt je daar verantwoordelijk voor.

Vrij gedeeld, te goeder trouw. Als je er iets aan hebt gehad, is een koha voor ontwikkelings- en exploitatiekosten van harte welkom.

Laat een koha achter →

← 3.4 4.1 →