一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

.@AnkythShukla 做出了大多數 AI 建設者忽略的明確區分。 "一個評估，它可以是任何東西，對吧？如果我們非常簡單地解釋，這可以是任何類型的測試。它可以是舊語言中的單元測試。這裡的字數計算也可以。或者在最先進的形式中，正如我們所展示的，它可以是一個 LLM 評判，這有點複製了我們在那個提示中編碼的一些人類直覺。" 這重新框架了整個 AI 評估的對話。大多數團隊聽到 "評估" 就想到複雜的 LLM 作為評判的管道。他們感到畏懼。他們跳過它。他們在沒有測量的情況下發佈。來自 @aakashgupta 的播客這一集的現實： > 一個評估可以簡單到一個字數計算函數或一個單元測試。開始的門檻很低。跳過它的成本很高。 > LLM 評判是進階形式 - 將人類直覺編碼到一個提示中，以大規模評分 AI 輸出。 > 從確定性代碼檢查到主觀質量評估的範圍都存在。兩者都重要。兩者都重要。 > 這直接映射到為什麼原型在規模上失敗的原因。@AnkythShukla 確定了五個原因，但有兩個特別突出：數據漂移：產品是為一種現實構建的。用戶生活在另一種現實中。如果沒有持續運行的評估，你永遠無法捕捉到這種偏差。成本：SaaS 每個用戶的邊際成本幾乎為零。AI 則不是。每次調用都需要花費金錢。如果沒有評估告訴你哪些調用有效，哪些是浪費，成本會在沒有相應價值的情況下膨脹。結論：AI 評估不是一種質量奢侈品。它們是決定你的原型是否成為產品或成為 95% 失敗率統計數據的運營基礎設施。