🚨NOTÍCIA DE ÚLTIMA HORA: A OpenAI disse que cada atualização torna o ChatGPT mais inteligente. Stanford provou o oposto. A precisão do GPT-4 em problemas matemáticos caiu de 97,6% para 2,4% em apenas três meses. E ninguém te contou. Pesquisadores de Stanford e da UC Berkeley acompanharam o desempenho real do ChatGPT ao longo do tempo. Mesmos prompts. Mesmas tarefas. Resultados diferentes. O modelo que quase acertou as questões de matemática em março estava errando 97 em cada 100 vezes até junho. A geração de código também colapsou. Em março, mais de 50% do código do GPT-4 funcionou perfeitamente na primeira tentativa. Em junho, apenas 10% funcionou. Mesmas perguntas. Respostas dramaticamente piores. Cada atualização silenciosa que a OpenAI lançou tornou o produto pelo qual você paga $20 por mês silenciosamente pior nas coisas que você realmente usa. Os pesquisadores testaram o GPT-3.5 e o GPT-4 em matemática, codificação, exames médicos, raciocínio e questões sensíveis. A deriva foi massiva e imprevisível. Algumas tarefas melhoraram. Outras despencaram. E não havia como você saber qual era qual, porque a OpenAI nunca divulgou o que mudou. Aqui é onde fica pessoal. Se você usou o ChatGPT para código em março e funcionou, depois tentou a mesma coisa em junho e não funcionou, você provavelmente se culpou. Você achou que o havia solicitado errado. Você tentou novamente. Você perdeu horas depurando suas próprias perguntas. Mas não era você. O modelo havia mudado silenciosamente por baixo de você. O VP de Produto da OpenAI foi ao X e disse "não tornamos o GPT-4 mais burro." Os dados de Stanford dizem o contrário. 97,6% para 2,4% não é uma questão de opinião. Cada negócio que constrói sobre a API do ChatGPT, cada estudante que confia nele para trabalhos escolares, cada desenvolvedor que o usa para enviar código está em um terreno que muda sem aviso. Você confiou nele ontem. Mudou da noite para o dia. Ninguém te contou. Você não está imaginando. O ChatGPT está ficando mais burro. Stanford provou isso.