Quer que um agente LLM tenha sucesso em um ambiente OOD? Abordamos o caso mais difícil com o SPA (Self-Play Agent). Sem dados extras, ferramentas ou modelos mais fortes. Puro auto-jogo. Primeiro internalizamos um modelo de mundo via Self-Play, depois aprendemos como vencer por RL. Como uma criança brincando com o env para simplesmente aprender sobre "e se eu fizer isso?" Abaixo, mostramos nossas descobertas sobre: O que há de errado com os ambientes OOD? Quais são os principais fatores que permitem que o jogo próprio seja bem-sucedido? (1/8)