📍 LLMs podem descobrir, abstrair e reutilizar habilidades de ferramentas de nível mais avançado em diferentes tarefas? Benchmarks existentes para uso de ferramentas testam tarefas de resolução com ferramentas fixas. Mas fluxos de trabalho reais contêm estruturas recorrentes onde a eficiência vem de composições de ferramentas reutilizáveis, não de chamadas isoladas. Apresentamos o SkillCraft: 126 tarefas em 6 domínios, projetadas para testar se agentes LLM podem adquirir habilidades composicionais, e não apenas para chamar ferramentas atômicas. Também propomos o Skill Mode, um protocolo leve com quatro primitivas MCP que permite que agentes compõem, verifiquem, armazenem em cache e reutilizem cadeias de ferramentas durante o teste. Nossas principais conclusões ao longo da avaliação de 8 modelos SOTA: ⚡O Modo de Habilidade permite que os agentes se autodescubram e reutilizem habilidades, levando a maior sucesso e eficiência do que agentes sem eles. Os ganhos são maiores para modelos mais fortes. 🧠 Modelos mais fortes (por exemplo, Claude) descobrem habilidades mais generalizáveis, que se transferem entre tarefas e até mesmo entre modelos. 🔍 Composição mais profunda ≠ melhor — habilidades superficiais e bem testadas generalizam melhor. 🔗 Papel: 💻 Código: 🏠 Página: (1/7)