📍 Podem os LLMs descobrir, abstrair e reutilizar habilidades de ferramentas de nível superior em diferentes tarefas? Os benchmarks existentes de uso de ferramentas testam a resolução de tarefas com ferramentas fixas. Mas os fluxos de trabalho reais contêm estruturas recorrentes onde a eficiência vem de composições de ferramentas reutilizáveis, e não de chamadas isoladas. Apresentamos o SkillCraft: 126 tarefas em 6 domínios projetadas para testar se os agentes LLM podem adquirir habilidades composicionais, e não apenas chamar ferramentas atómicas. Também propomos o Skill Mode, um protocolo leve com quatro primitivas MCP que permitem aos agentes compor, verificar, armazenar em cache e reutilizar cadeias de ferramentas no momento do teste. Nossas principais descobertas ao avaliar 8 modelos SOTA: ⚡ O Skill Mode permite que os agentes descubram e reutilizem habilidades, levando a um maior sucesso e eficiência do que agentes sem ele. Os ganhos são maiores para modelos mais fortes. 🧠 Modelos mais fortes (por exemplo, Claude) descobrem habilidades mais generalizáveis, que se transferem entre tarefas e até mesmo entre modelos. 🔍 Composição mais profunda ≠ melhor — habilidades superficiais e bem testadas generalizam melhor. 🔗 Artigo: 💻 Código: 🏠 Página: (1/7)