Loja DApp | Hub Web3 para eventos e jogos

Tópicos populares

.@AnkythShukla fez uma distinção clara que a maioria dos construtores de IA ignora. "Uma avaliação pode ser qualquer coisa, certo? Se fôssemos explicar isso de forma muito simples, poderia ser qualquer tipo de teste. Poderia ser um teste unitário na linguagem antiga. Poderia ser apenas uma contagem de palavras aqui. Ou na forma mais avançada, como mostramos, pode ser um juiz LLM, que está meio que replicando um pouco daquela intuição humana que codificamos naquele prompt que vimos." Isso reformula toda a conversa sobre avaliações de IA. A maioria das equipes ouve "avaliações" e pensa em complexos pipelines de LLM como juiz. Elas ficam intimidadas. Elas pulam isso. Elas lançam sem medição. A realidade deste episódio no podcast de @aakashgupta: > Uma avaliação pode ser tão simples quanto uma função de contagem de palavras ou um teste unitário. A barreira para começar é baixa. O custo de pular isso é alto. > Um juiz LLM é a forma avançada - codificando a intuição humana em um prompt que classifica as saídas de IA em escala. > O espectro vai de verificações de código determinísticas a avaliações de qualidade subjetivas. Ambos contam. Ambos importam. > Isso mapeia diretamente o motivo pelo qual protótipos falham em escala. @AnkythShukla identificou cinco razões, mas duas se destacam: Desvio de dados: o produto foi construído para uma realidade. Os usuários vivem em outra. Sem avaliações rodando continuamente, você nunca percebe a divergência. Custo: SaaS tem custo marginal quase zero por usuário. IA não. Cada chamada custa dinheiro. Sem avaliações dizendo quais chamadas estão funcionando e quais estão desperdiçadas, os custos disparam sem valor proporcional. A lição: avaliações de IA não são um luxo de qualidade. Elas são a infraestrutura operacional que determina se seu protótipo se torna um produto ou se torna uma estatística na taxa de falha de 95%.

Top

Classificação

Favoritos