热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
📍 LLM能否在任务之间发现、抽象和重用更高层次的工具技能?
现有的工具使用基准测试使用固定工具解决任务。但真实的工作流程包含重复的结构,其中效率来自可重用的工具组合,而不是孤立的调用。
我们引入了SkillCraft:126个任务跨越6个领域,旨在测试LLM代理是否能够获得组合技能,而不仅仅是调用原子工具。
我们还提出了Skill Mode,这是一种轻量级协议,具有四个MCP原语,允许代理在测试时组合、验证、缓存和重用工具链。
我们在评估8个SOTA模型时的关键发现:
⚡Skill Mode使代理能够自我发现和重用技能,导致比没有它的代理更高的成功率和效率。对于更强的模型,收益更大。
🧠 更强的模型(例如Claude)发现更具可迁移性的技能,这些技能可以跨任务甚至跨模型转移。
🔍 更深的组合≠更好——浅层、经过良好测试的技能最具通用性。
🔗 论文:
💻 代码:
🏠 页面:
(1/7)
热门
排行
收藏
