.@AnkythShukla, çoğu yapay zeka yapımcısı tarafından gözden kaçırılan keskin bir ayrım yaptı. "Bir değerlendirme, her şey olabilir, değil mi? Bunu çok basit açıklıyorsak, herhangi bir test olabilir. Eski dilde bir birim testi olabilir. Burada sadece kelime sayımı olabilir. Ya da en gelişmiş halinde, gösterdiğimiz gibi, bir LLM yargıcı olabilir; bu da gördüğümüz o prompta kodladığımız insan sezgisinin bir kısmını bir şekilde kopyalıyor." Bu, tüm yapay zeka değerlendirme konuşmasını yeniden çerçeveliyor. Çoğu takım "değerlendirme" duyar ve karmaşık LLM boru hatlarını düşünür. Korkuyorlar. Atlıyorlar. Ölçü olmadan gönderiliyor. @aakashgupta's podcast'teki bu bölümden gerçeklik: > Bir değerlendirme, kelime sayısı fonksiyonu veya birim testi kadar basit olabilir. Başlangıç çıtası düşük. Atlamanın maliyeti yüksek. > LLM yargıcı, gelişmiş biçimdir - insan sezgisini yapay zeka çıktılarını ölçekte derecelendiren bir prompta kodlar. > Spektrum deterministik kod kontrollerinden öznel kalite değerlendirmesine kadar uzanır. İkisi de sayılır. İkisi de önemli. > Bu, prototiplerin ölçekte neden başarısız olduğunu doğrudan gösteriyor. @AnkythShukla beş sebep belirledi, ancak ikisi öne çıkıyor: Veri sürüklenmesi: ürün tek bir gerçeklik için tasarlandı. Kullanıcılar başka bir yerde yaşıyor. Sürekli değerlendirmeler yapılmazsa, sapmayı asla yakalayamıyorsun. Maliyet: SaaS'ın kullanıcı başına neredeyse sıfır marjinal maliyeti vardır. Yapay zeka bunu yapmıyor. Her arama para tutar. Hangi çağrıların işe yaradığını, hangilerinin boşa gittiğini tahmin etmeden, maliyetler orantılı değer olmadan şişiyor. Sonuç olarak: Yapay zeka değerlendirmeleri kaliteli bir lüks değildir. Bunlar, prototipinizin ürün mi yoksa %95'lik başarısızlık oranında bir istatistik haline mı dönüşeceğini belirleyen operasyonel altyapıdır.