Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
📍 Podem os LLMs descobrir, abstrair e reutilizar habilidades de ferramentas de nível superior em diferentes tarefas?
Os benchmarks existentes de uso de ferramentas testam a resolução de tarefas com ferramentas fixas. Mas os fluxos de trabalho reais contêm estruturas recorrentes onde a eficiência vem de composições de ferramentas reutilizáveis, e não de chamadas isoladas.
Apresentamos o SkillCraft: 126 tarefas em 6 domínios projetadas para testar se os agentes LLM podem adquirir habilidades composicionais, e não apenas chamar ferramentas atómicas.
Também propomos o Skill Mode, um protocolo leve com quatro primitivas MCP que permitem aos agentes compor, verificar, armazenar em cache e reutilizar cadeias de ferramentas no momento do teste.
Nossas principais descobertas ao avaliar 8 modelos SOTA:
⚡ O Skill Mode permite que os agentes descubram e reutilizem habilidades, levando a um maior sucesso e eficiência do que agentes sem ele. Os ganhos são maiores para modelos mais fortes.
🧠 Modelos mais fortes (por exemplo, Claude) descobrem habilidades mais generalizáveis, que se transferem entre tarefas e até mesmo entre modelos.
🔍 Composição mais profunda ≠ melhor — habilidades superficiais e bem testadas generalizam melhor.
🔗 Artigo:
💻 Código:
🏠 Página:
(1/7)
Top
Classificação
Favoritos
