.@AnkythShukla сделал четкое различие, которое большинство создателей ИИ упускают. "Эвал, это может быть что угодно, верно? Если бы мы объясняли это действительно просто, это могло бы быть любым тестом. Это мог быть юнит-тест на старом языке. Это может быть просто подсчет слов здесь. Или в самой продвинутой форме, как мы показали, это может быть судья LLM, который как бы воспроизводит некоторую человеческую интуицию, которую мы закодировали в тот запрос, который мы видели." Это переосмысляет весь разговор об эвалах ИИ. Большинство команд слышат "эвал" и думают о сложных пайплайнах LLM в роли судьи. Они пугаются. Они пропускают это. Они отправляют без измерений. Реальность из этого эпизода подкаста @aakashgupta: > Эвал может быть таким же простым, как функция подсчета слов или юнит-тест. Планка для начала низка. Стоимость пропуска этого высока. > Судья LLM - это продвинутая форма - кодирование человеческой интуиции в запрос, который оценивает выходы ИИ в масштабе. > Спектр варьируется от детерминированных проверок кода до субъективной оценки качества. Оба имеют значение. Оба важны. > Это напрямую связано с тем, почему прототипы терпят неудачу в масштабе. @AnkythShukla выделил пять причин, но две выделяются: Сдвиг данных: продукт был создан для одной реальности. Пользователи живут в другой. Без непрерывно работающих эвалов вы никогда не поймаете это расхождение. Стоимость: SaaS имеет почти нулевую предельную стоимость на пользователя. ИИ - нет. Каждый вызов стоит денег. Без эвалов, которые говорят вам, какие вызовы работают, а какие потрачены зря, расходы растут без пропорциональной ценности. Вывод: эвал ИИ - это не роскошь качества. Это операционная инфраструктура, которая определяет, станет ли ваш прототип продуктом или статистикой в 95% уровне неудач.