.@AnkythShukla 做出了大多數 AI 建設者忽略的明確區分。 "一個評估,它可以是任何東西,對吧?如果我們非常簡單地解釋,這可以是任何類型的測試。它可以是舊語言中的單元測試。這裡的字數計算也可以。或者在最先進的形式中,正如我們所展示的,它可以是一個 LLM 評判,這有點複製了我們在那個提示中編碼的一些人類直覺。" 這重新框架了整個 AI 評估的對話。 大多數團隊聽到 "評估" 就想到複雜的 LLM 作為評判的管道。他們感到畏懼。他們跳過它。他們在沒有測量的情況下發佈。 來自 @aakashgupta 的播客這一集的現實: > 一個評估可以簡單到一個字數計算函數或一個單元測試。開始的門檻很低。跳過它的成本很高。 > LLM 評判是進階形式 - 將人類直覺編碼到一個提示中,以大規模評分 AI 輸出。 > 從確定性代碼檢查到主觀質量評估的範圍都存在。兩者都重要。兩者都重要。 > 這直接映射到為什麼原型在規模上失敗的原因。@AnkythShukla 確定了五個原因,但有兩個特別突出: 數據漂移:產品是為一種現實構建的。用戶生活在另一種現實中。如果沒有持續運行的評估,你永遠無法捕捉到這種偏差。 成本:SaaS 每個用戶的邊際成本幾乎為零。AI 則不是。每次調用都需要花費金錢。如果沒有評估告訴你哪些調用有效,哪些是浪費,成本會在沒有相應價值的情況下膨脹。 結論:AI 評估不是一種質量奢侈品。它們是決定你的原型是否成為產品或成為 95% 失敗率統計數據的運營基礎設施。