📍 ¿Pueden los LLMs descubrir, abstraer y reutilizar habilidades de herramientas de nivel superior a través de tareas? Los benchmarks existentes de uso de herramientas prueban la resolución de tareas con herramientas fijas. Pero los flujos de trabajo reales contienen estructuras recurrentes donde la eficiencia proviene de composiciones de herramientas reutilizables, no de llamadas aisladas. Presentamos SkillCraft: 126 tareas en 6 dominios diseñadas para probar si los agentes LLM pueden adquirir habilidades composicionales, no solo llamar herramientas atómicas. También proponemos Skill Mode, un protocolo ligero con cuatro primitivas MCP que permiten a los agentes componer, verificar, almacenar en caché y reutilizar cadenas de herramientas en el momento de la prueba. Nuestros hallazgos clave al evaluar 8 modelos SOTA: ⚡Skill Mode permite a los agentes descubrir y reutilizar habilidades por sí mismos, lo que lleva a un mayor éxito y eficiencia que los agentes sin él. Las ganancias son mayores para modelos más fuertes. 🧠 Los modelos más fuertes (por ejemplo, Claude) descubren habilidades más generalizables, que se transfieren entre tareas e incluso entre modelos. 🔍 Composición más profunda ≠ mejor — las habilidades superficiales y bien probadas se generalizan mejor. 🔗 Documento: 💻 Código: 🏠 Página: (1/7)