熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
.@AnkythShukla 做出了大多數 AI 建設者忽略的明確區分。
"一個評估,它可以是任何東西,對吧?如果我們非常簡單地解釋,這可以是任何類型的測試。它可以是舊語言中的單元測試。這裡的字數計算也可以。或者在最先進的形式中,正如我們所展示的,它可以是一個 LLM 評判,這有點複製了我們在那個提示中編碼的一些人類直覺。"
這重新框架了整個 AI 評估的對話。
大多數團隊聽到 "評估" 就想到複雜的 LLM 作為評判的管道。他們感到畏懼。他們跳過它。他們在沒有測量的情況下發佈。
來自 @aakashgupta 的播客這一集的現實:
> 一個評估可以簡單到一個字數計算函數或一個單元測試。開始的門檻很低。跳過它的成本很高。
> LLM 評判是進階形式 - 將人類直覺編碼到一個提示中,以大規模評分 AI 輸出。
> 從確定性代碼檢查到主觀質量評估的範圍都存在。兩者都重要。兩者都重要。
> 這直接映射到為什麼原型在規模上失敗的原因。@AnkythShukla 確定了五個原因,但有兩個特別突出:
數據漂移:產品是為一種現實構建的。用戶生活在另一種現實中。如果沒有持續運行的評估,你永遠無法捕捉到這種偏差。
成本:SaaS 每個用戶的邊際成本幾乎為零。AI 則不是。每次調用都需要花費金錢。如果沒有評估告訴你哪些調用有效,哪些是浪費,成本會在沒有相應價值的情況下膨脹。
結論:AI 評估不是一種質量奢侈品。它們是決定你的原型是否成為產品或成為 95% 失敗率統計數據的運營基礎設施。
熱門
排行
收藏
