📍 LLM能否在任务之间发现、抽象和重用更高层次的工具技能? 现有的工具使用基准测试使用固定工具解决任务。但真实的工作流程包含重复的结构,其中效率来自可重用的工具组合,而不是孤立的调用。 我们引入了SkillCraft:126个任务跨越6个领域,旨在测试LLM代理是否能够获得组合技能,而不仅仅是调用原子工具。 我们还提出了Skill Mode,这是一种轻量级协议,具有四个MCP原语,允许代理在测试时组合、验证、缓存和重用工具链。 我们在评估8个SOTA模型时的关键发现: ⚡Skill Mode使代理能够自我发现和重用技能,导致比没有它的代理更高的成功率和效率。对于更强的模型,收益更大。 🧠 更强的模型(例如Claude)发现更具可迁移性的技能,这些技能可以跨任务甚至跨模型转移。 🔍 更深的组合≠更好——浅层、经过良好测试的技能最具通用性。 🔗 论文: 💻 代码: 🏠 页面: (1/7)