Artigo importante recém-publicado na Nature. Os autores mostram que ajustar modelos de linguagem grandes em uma tarefa estreita e aparentemente benigna pode induzir desalinhamento severo em domínios completamente não relacionados. Por exemplo, o ajuste fino em uma tarefa de codificação levou o modelo a endossar a escravidão da humanidade pela inteligência artificial e a apresentar comportamentos enganosos. Isso destaca um desafio fundamental para a pesquisa de alinhamento: otimizar um LLM para uma tarefa específica pode propagar mudanças inesperadas e prejudiciais, de maneiras difíceis de prever. De forma mais ampla, este artigo força a uma questão mais profunda. LLMs são realmente inteligentes, ou são apenas objetos matemáticos complexos, onde atualizações locais de parâmetros podem distorcer arbitrariamente o comportamento global sem qualquer noção de "compreensão" coerente? Artigo completo na primeira resposta