Arnés Idea de meta-benchmark: Una colección de aprovechamientos básicos de agentes (AGENTS.md, documentos, habilidades, ganchos) que encapsulan aplicaciones no triviales, cada una con un único prompt para terraformar la aplicación de un solo intento empezando desde cero. Cuando salen nuevos agentes o modelos de codificación, podemos ejecutarlos contra el harness para comparar directamente con versiones anteriores de modelos. "Este modelo escribía un navegador desde cero a partir del arnés estándar con X% de completitud de características y solo Y líneas de código en Z horas para $XYZ." Imagina ver ese Cursor del navegador desarrollado a través de la perspectiva de cada actualización de modelo posterior. ¿Qué tal era el código? ¿Qué velocidad tenía el renderizador? ¿Qué tan completo estaba el conjunto de funciones? ¿Cuánto tiempo tuvo que estar el agente en marcha? ¿Cuál fue el coste total de las fichas? Es una especie de CSS Zen Garden (que hizo mucho para impulsar los estándares de los navegadores) para los arneses de agentes. Siento que todos hemos experimentado la diferencia en Codex 5.4 Extra High (si no, deja de leer este post y pruébalo inmediatamente), pero aún no tenemos forma de capturar en un benchmark la experiencia cualitativa de usarlo como desarrollador, especialmente para medidas como arquitectura y calidad de código.