.@AnkythShukla dokonał wyraźnego rozróżnienia, które umyka większości twórców AI. "Ewaluacja, może być czymkolwiek, prawda? Jeśli mielibyśmy to wyjaśnić naprawdę prosto, mogłaby to być jakiegoś rodzaju test. Mogłaby to być jednostkowa próba w starym języku. Może to być po prostu liczenie słów tutaj. Lub w najbardziej zaawansowanej formie, jak pokazaliśmy, może to być sędzia LLM, który w pewnym sensie replikuje część tej ludzkiej intuicji, którą zakodowaliśmy w tym podpowiedzi, którą widzieliśmy." To przekształca całą rozmowę o ewaluacjach AI. Większość zespołów słyszy "ewaluacje" i myśli o skomplikowanych pipeline'ach LLM-jako-sędzia. Czują się onieśmieleni. Pomijają to. Wysyłają bez pomiaru. Rzeczywistość z tego odcinka podcastu @aakashgupta: > Ewaluacja może być tak prosta jak funkcja liczenia słów lub test jednostkowy. Poprzeczka do rozpoczęcia jest niska. Koszt pominięcia tego jest wysoki. > Sędzia LLM to zaawansowana forma - zakodowanie ludzkiej intuicji w podpowiedzi, która ocenia wyniki AI na dużą skalę. > Spektrum rozciąga się od deterministycznych kontroli kodu do subiektywnej oceny jakości. Oba się liczą. Oba mają znaczenie. > To bezpośrednio odnosi się do tego, dlaczego prototypy zawodzą na dużą skalę. @AnkythShukla zidentyfikował pięć powodów, ale dwa wyróżniają się: Dryf danych: produkt został zbudowany dla jednej rzeczywistości. Użytkownicy żyją w innej. Bez ciągłych ewaluacji nigdy nie zauważysz rozbieżności. Koszt: SaaS ma prawie zerowy koszt marginalny na użytkownika. AI nie. Każde wywołanie kosztuje pieniądze. Bez ewaluacji mówiących, które wywołania działają, a które są zmarnowane, koszty rosną bez proporcjonalnej wartości. Wniosek: ewaluacje AI nie są luksusem jakości. To infrastruktura operacyjna, która decyduje, czy twój prototyp staje się produktem, czy statystyką w 95% wskaźniku niepowodzeń.