Harness Meta-基準想法:一組基本代理的 harness(AGENTS.md、文檔、技能、hooks),封裝了非平凡的應用程序,每個應用程序都有一個單一的提示,可以從零開始一次性地 terraform 應用程序。當新的編碼代理或模型出現時,我們可以對照這個 harness 直接與之前的模型版本進行比較。"這個模型從標準瀏覽器 harness 從零開始編寫了一個瀏覽器,功能完整度為 X%,僅用 Y 行代碼在 Z 小時內完成,花費 $XYZ。" 想像一下,通過每次後續模型更新的視角來看這個瀏覽器 Cursor 的開發。代碼有多好?渲染器有多快?功能集有多完整?代理運行了多久?代幣的總成本是多少? 有點像 CSS Zen Garden(這對推進瀏覽器標準做出了巨大貢獻)針對代理 harness。 我覺得我們所有人都體驗過 Codex 5.4 Extra High 的差異(如果沒有,請立即停止閱讀這篇文章並嘗試),但我們仍然沒有辦法在基準中捕捉到作為開發者使用它的質量體驗,特別是在架構和代碼質量等指標上。