跳轉至主要內容
行情
掃鏈
策略
追蹤
追蹤聰明錢地址,實時監控動態
跟單
探索鏈上交易,一鍵跟單獲取收益
信號
關注聰明錢信號,發現早期機會
兌換
資產
邀請計劃
Onchain OS
開發者中心
文檔
API Key 管理
X Layer
探索 X Layer
X Layer 瀏覽器
跨鏈橋
開發者文檔
測試網水龍頭
GitHub
區塊鏈瀏覽器
更多
DeFi
市場
安全中心
Boost
X Launch
參與 X Launch,搶先賺新幣
X Campaign
參與活動,贏取豐厚獎勵
獎勵中心
領取獎勵和空投
預警
語言
貨幣
DEX 功能
顏色設置
下載 OKX Wallet
Web3 指南
公告
返回
繁體中文
简体中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
Türkçe
返回
返回
學院
幫助中心
返回
自動翻譯代幣名稱
自動翻譯 X 內容
懸停顯示代幣卡片
熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
Hosico
-5.4%
USELESS
-3.62%
IKUN
-6.46%
gib
+0.19%
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
Bonk
-2.82%
ALON
-4.41%
LAUNCHCOIN
-1.34%
GOONC
-2.16%
KLED
-7.28%
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
BOOP
-1.22%
Boopa
-2.69%
PORK
0.00%
主頁
Shiqi Chen
PhD student @CityUHongKong. NLPer. Visiting PhD @OxCSML @NorthwesternU and @HKUST. Former @SeaAIL.
Shiqi Chen
3月9日 23:03
📍 LLM 能否在任務之間發現、抽象和重用更高層次的工具技能? 現有的工具使用基準測試使用固定工具解決任務。但實際工作流程包含重複的結構,其中效率來自可重用的工具組合,而不是孤立的調用。 我們介紹 SkillCraft:126 個任務涵蓋 6 個領域,旨在測試 LLM 代理是否能獲得組合技能,而不僅僅是調用原子工具。 我們還提出 Skill Mode,一種輕量級協議,具有四個 MCP 原語,讓代理在測試時組合、驗證、緩存和重用工具鏈。 我們在評估 8 個 SOTA 模型中的主要發現: ⚡ Skill Mode 使代理能夠自我發現和重用技能,導致比沒有此功能的代理更高的成功率和效率。對於更強的模型,增益更大。 🧠 更強的模型(例如 Claude)發現更具可轉移性的技能,這些技能可以跨任務甚至跨模型轉移。 🔍 更深的組合 ≠ 更好——淺層、經過良好測試的技能最具通用性。 🔗 論文: 💻 代碼: 🏠 頁面: (1/7)
141
Shiqi Chen
2025年10月25日
想要讓 LLM 代理在 OOD 環境中成功嗎? 我們用 SPA(自我遊玩代理)來解決最困難的案例。沒有額外的數據、工具或更強的模型。純粹的自我遊玩。 我們首先通過自我遊玩內化一個世界模型,然後通過強化學習學習如何獲勝。 就像孩子在環境中玩耍,單純地學習「如果我這樣做會怎樣?」 下面,我們展示了我們的發現:OOD 環境中出了什麼問題?哪些關鍵因素使自我遊玩能夠成功? (1/8)
151
熱門
排行
收藏