Tier 3 · Guard & build3.512 min

¿En qué nivel de modelo se ejecuta tu agente

A fiery orange-and-pink sunset over a harbour ringed by dark hills

En la última lección se planteó una pregunta sobre tu modelo: ¿en qué ordenador se ejecuta? (custodia). En esta se aborda la otra mitad: ¿en qué nivel del modelo debería ejecutarse este agente? Cuando ejecutas un solo agente, apenas importa. Cuando ejecutas varios, o uno de ellos a diario, se convierte en una decisión importante —sobre el coste y sobre la calidad— y es el Ancla 2, la mejora continua, en una forma muy concreta : pon la capacidad donde se gane lo que cuesta, y ni un dólar más.

Los dos instintos que fallan

«Utiliza siempre lo mejor». Cómodo, caro y no te enseña nada sobre dónde está dando resultado el dinero. «Sensaciones»: este agente parece importante, así que recibe el mejor modelo. Pero la importancia que un agente parece tener no se corresponde con el tipo específico de dificultad que un modelo más potente realmente aborda. La mayoría de los agentes no están limitados por la capacidad del modelo; están limitados por una tarea imprecisa o por entradas desordenadas, y un modelo más grande no soluciona ninguna de las dos cosas.

La respuesta rigurosa es la misma selección que se ha enseñado a lo largo de todo el curso, aplicada a tu galería: puntúa a cada agente según las características que realmente premian a un modelo más potente, y paga al nivel superior solo cuando estén presentes.

Dónde el nivel superior se gana su lugar —en toda tu galería—

Aprovechamiento del razonamiento: largas cadenas en las que un error inicial se agrava silenciosamente. Un verificador de conciliaciones contables que aplica una sola regla escrita tiene un bajo aprovechamiento; un nivel más económico lo hace bien. Un agente que toma una decisión que se encadena a través de muchos documentos tiene un alto aprovechamiento.
Aprovechamiento de la síntesis: conciliar fuentes que no coinciden y la lectura adversaria (lo que una fuente omite). Tu analista de mercado o de la competencia, al sopesar informes contradictorios, es donde destaca el nivel superior.
Profundidad estratégica: cuando una respuesta mediocre no es incorrecta, sino simplemente superficial, y esa superficialidad te sale cara. Un modelo más económico se limita a resumir; uno más potente se da cuenta del encuadre que cambia tu decisión.

Y las dos cosas que un modelo más grande no solucionará —y que los niveles anteriores ya te han enseñado—:

La invención de datos se frena mediante la fundamentación — fuentes, criterios, una verificación humana (las barreras de seguridad del Nivel 3)—, no por el precio del modelo.
El sesgo no se reduce de forma fiable con el nivel. La lección del reclutador sigue vigente: no se resuelve un problema de equidad comprando un modelo más caro; hay que definir su alcance, probarlo y, a veces, rechazarlo.

Luego, dos comprobaciones sencillas: la preparación —un agente ávido de capacidades al que se le asigna una tarea vaga genera una costosa confusión, no brillantez— y el volumen —el precio por nivel apenas importa para un agente que trabaja una vez a la semana, pero se acumula para uno que funciona todo el día.

La clave que lo mantiene independiente del modelo

Esto es lo que hace que encaje perfectamente con la última lección en lugar de contradecirla: al marco no le importa de quién sea el modelo . Te indica dónde se justifica la capacidad —y eso es tan cierto para los modelos soberanos, alojados en Nueva Zelanda o en la UE, de la lección 3.4 como para cualquier nivel público de frontera—. Así pues, las dos preguntas se combinan en una sola tabla:

¿De quién es el ordenador (custodia)? — Lo decide lo que el agente maneja.
¿Qué nivel (capacidad)? — Lo decide si el trabajo del agente justifica un modelo más potente.

Un agente que maneja datos sensibles debe estar en una infraestructura soberana, sea cual sea su nivel; un agente que requiere mucha capacidad para tareas no sensibles puede optar por el nivel más potente disponible. Se asigna en ambos ejes, de forma deliberada, en lugar de asignar por defecto toda la flota al servidor más caro.

Nombrar el nivel — con cuidado

En el momento de redactar este texto, el modelo más potente y ampliamente disponible es Claude Fable 5, por encima de los niveles Opus, Sonnet y Haiku —, pero ese es precisamente el tipo de dato que queda obsoleto: los nombres, las capacidades y los precios cambian a menudo, y las opciones soberanas también varían. Lo que sí se puede afirmar con certeza es simplemente que un nivel superior es más capaz que los que están por debajo de él. Para conocer los detalles actuales, consulta la fuente (anthropic.com/news, docs.claude.com) en lugar de fiarte de lo que recuerdas de una página del curso: la misma disciplina de verificación que exigirías al propio agente. (El servicio de seguimiento legislativo de este curso está atento a cuándo cambian estos datos).

El paso de la construcción

Evalúa a cada agente en cuanto a razonamiento, síntesis y profundidad estratégica. Si tiene dos de tres puntuaciones altas → es candidato para el nivel superior. De lo contrario, un nivel más económico, sinceramente.
No dejes que la exposición a alucinaciones o los sesgos hagan subir el nivel —esas son tareas de fundamentación y alcance—.
A continuación, realiza el experimento sencillo: para un candidato, ejecútalo una vez en tu nivel actual y otra en el superior, y compara tú mismo los resultados. La clasificación indica dónde merece la pena el experimento; el experimento revela la verdad.

Fíjate en los agentes de tu galería. ¿Por cuál de ellos pagarías realmente el nivel superior? ¿Y puedes señalar si es el razonamiento, la síntesis o la profundidad estratégica lo que lo justifica? Si la respuesta sincera es «simplemente me parece importante», ese es el instinto que esta lección pretende poner a prueba.

Ya hemos completado el nivel de «protección y desarrollo»: alcance, criterios, medidas de seguridad, pruebas, las dos versiones y las dos preguntas sobre tu modelo: ¿de quién es el ordenador y en qué nivel se encuentra? El nivel 4 pone al agente a trabajar y te hace responsable de ello.

Compartido libremente, de buena fe. Si te ha resultado útil, se agradece mucho una contribución de koha para sufragar los costes de desarrollo y funcionamiento.

Deja un koha →

← 3.4 4.1 →