📍 LLM 能否在任務之間發現、抽象和重用更高層次的工具技能? 現有的工具使用基準測試使用固定工具解決任務。但實際工作流程包含重複的結構,其中效率來自可重用的工具組合,而不是孤立的調用。 我們介紹 SkillCraft:126 個任務涵蓋 6 個領域,旨在測試 LLM 代理是否能獲得組合技能,而不僅僅是調用原子工具。 我們還提出 Skill Mode,一種輕量級協議,具有四個 MCP 原語,讓代理在測試時組合、驗證、緩存和重用工具鏈。 我們在評估 8 個 SOTA 模型中的主要發現: ⚡ Skill Mode 使代理能夠自我發現和重用技能,導致比沒有此功能的代理更高的成功率和效率。對於更強的模型,增益更大。 🧠 更強的模型(例如 Claude)發現更具可轉移性的技能,這些技能可以跨任務甚至跨模型轉移。 🔍 更深的組合 ≠ 更好——淺層、經過良好測試的技能最具通用性。 🔗 論文: 💻 代碼: 🏠 頁面: (1/7)