一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

📍 LLM 能否在任務之間發現、抽象和重用更高層次的工具技能？現有的工具使用基準測試使用固定工具解決任務。但實際工作流程包含重複的結構，其中效率來自可重用的工具組合，而不是孤立的調用。我們介紹 SkillCraft：126 個任務涵蓋 6 個領域，旨在測試 LLM 代理是否能獲得組合技能，而不僅僅是調用原子工具。我們還提出 Skill Mode，一種輕量級協議，具有四個 MCP 原語，讓代理在測試時組合、驗證、緩存和重用工具鏈。我們在評估 8 個 SOTA 模型中的主要發現： ⚡ Skill Mode 使代理能夠自我發現和重用技能，導致比沒有此功能的代理更高的成功率和效率。對於更強的模型，增益更大。 🧠 更強的模型（例如 Claude）發現更具可轉移性的技能，這些技能可以跨任務甚至跨模型轉移。 🔍 更深的組合 ≠ 更好——淺層、經過良好測試的技能最具通用性。 🔗 論文： 💻 代碼： 🏠 頁面： (1/7)