一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

Harness Meta-基準想法：一組基本代理的 harness（AGENTS.md、文檔、技能、hooks），封裝了非平凡的應用程序，每個應用程序都有一個單一的提示，可以從零開始一次性地 terraform 應用程序。當新的編碼代理或模型出現時，我們可以對照這個 harness 直接與之前的模型版本進行比較。"這個模型從標準瀏覽器 harness 從零開始編寫了一個瀏覽器，功能完整度為 X%，僅用 Y 行代碼在 Z 小時內完成，花費 $XYZ。" 想像一下，通過每次後續模型更新的視角來看這個瀏覽器 Cursor 的開發。代碼有多好？渲染器有多快？功能集有多完整？代理運行了多久？代幣的總成本是多少？有點像 CSS Zen Garden（這對推進瀏覽器標準做出了巨大貢獻）針對代理 harness。我覺得我們所有人都體驗過 Codex 5.4 Extra High 的差異（如果沒有，請立即停止閱讀這篇文章並嘗試），但我們仍然沒有辦法在基準中捕捉到作為開發者使用它的質量體驗，特別是在架構和代碼質量等指標上。