熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
📍 LLM 能否在任務之間發現、抽象和重用更高層次的工具技能?
現有的工具使用基準測試使用固定工具解決任務。但實際工作流程包含重複的結構,其中效率來自可重用的工具組合,而不是孤立的調用。
我們介紹 SkillCraft:126 個任務涵蓋 6 個領域,旨在測試 LLM 代理是否能獲得組合技能,而不僅僅是調用原子工具。
我們還提出 Skill Mode,一種輕量級協議,具有四個 MCP 原語,讓代理在測試時組合、驗證、緩存和重用工具鏈。
我們在評估 8 個 SOTA 模型中的主要發現:
⚡ Skill Mode 使代理能夠自我發現和重用技能,導致比沒有此功能的代理更高的成功率和效率。對於更強的模型,增益更大。
🧠 更強的模型(例如 Claude)發現更具可轉移性的技能,這些技能可以跨任務甚至跨模型轉移。
🔍 更深的組合 ≠ 更好——淺層、經過良好測試的技能最具通用性。
🔗 論文:
💻 代碼:
🏠 頁面:
(1/7)
熱門
排行
收藏
