.@AnkythShukla đã đưa ra một sự phân biệt rõ ràng mà hầu hết các nhà phát triển AI đều bỏ lỡ. "Một eval, nó có thể là bất cứ điều gì, đúng không? Nếu chúng ta giải thích điều này một cách thật đơn giản, nó có thể là bất kỳ loại bài kiểm tra nào. Nó có thể là một bài kiểm tra đơn vị trong ngôn ngữ cũ. Nó có thể chỉ là một phép đếm số từ ở đây. Hoặc ở dạng nâng cao nhất, như chúng ta đã chỉ ra, nó có thể là một trọng tài LLM, điều này giống như tái tạo một phần trực giác con người mà chúng ta đã mã hóa vào trong prompt mà chúng ta đã thấy." Điều này định hình lại toàn bộ cuộc trò chuyện về evals AI. Hầu hết các đội nghe "evals" và nghĩ đến các quy trình LLM-as-judge phức tạp. Họ cảm thấy bị áp lực. Họ bỏ qua nó. Họ phát hành mà không có sự đo lường. Thực tế từ tập này trên podcast của @aakashgupta: > Một eval có thể đơn giản như một hàm đếm từ hoặc một bài kiểm tra đơn vị. Rào cản để bắt đầu là thấp. Chi phí của việc bỏ qua nó là cao. > Một trọng tài LLM là dạng nâng cao - mã hóa trực giác con người vào một prompt mà đánh giá đầu ra AI trên quy mô lớn. > Phổ biến chạy từ kiểm tra mã xác định đến đánh giá chất lượng chủ quan. Cả hai đều quan trọng. Cả hai đều có ý nghĩa. > Điều này liên quan trực tiếp đến lý do tại sao các nguyên mẫu thất bại ở quy mô lớn. @AnkythShukla đã xác định năm lý do, nhưng hai lý do nổi bật: Sự trôi dạt dữ liệu: sản phẩm được xây dựng cho một thực tế. Người dùng sống trong một thực tế khác. Nếu không có evals chạy liên tục, bạn sẽ không bao giờ phát hiện ra sự khác biệt. Chi phí: SaaS có chi phí biên gần như bằng không cho mỗi người dùng. AI thì không. Mỗi cuộc gọi đều tốn tiền. Nếu không có evals cho bạn biết cuộc gọi nào đang hoạt động và cuộc gọi nào là lãng phí, chi phí sẽ tăng vọt mà không có giá trị tương xứng. Điều cần rút ra: evals AI không phải là một sự xa xỉ về chất lượng. Chúng là cơ sở hạ tầng hoạt động quyết định xem nguyên mẫu của bạn có trở thành sản phẩm hay trở thành một thống kê trong tỷ lệ thất bại 95%.