📍 ¿Pueden los LLMs descubrir, abstraer y reutilizar habilidades de herramientas de mayor nivel en diferentes tareas? Los benchmarks existentes de uso de herramientas prueban tareas de resolución con herramientas fijas. Pero los flujos de trabajo reales contienen estructuras recurrentes donde la eficiencia proviene de composiciones de herramientas reutilizables, no de llamadas aisladas. Presentamos SkillCraft: 126 tareas en 6 dominios diseñadas para probar si los agentes LLM pueden adquirir habilidades compositivas, no solo para llamar herramientas atómicas. También proponemos Skill Mode, un protocolo ligero con cuatro primitivas MCP que permite a los agentes componer, verificar, almacenar en caché y reutilizar cadenas de herramientas en el momento de la prueba. Nuestros principales hallazgos en la evaluación de 8 modelos SOTA: ⚡El Modo Habilidad permite a los agentes autodescubrirse y reutilizar las habilidades, lo que conduce a un mayor éxito y eficiencia que los agentes sin ella. Las ganancias son mayores para modelos más fuertes. 🧠 Modelos más fuertes (por ejemplo, Claude) descubren habilidades más generalizables, que se transfieren entre tareas e incluso entre modelos. 🔍 Una composición más profunda ≠ mejor: las habilidades superficiales y bien probadas generalizan mejor. 🔗 Papel: 💻 Código: 🏠 Página: (1/7)