Quer obter um agente LLM para ter sucesso em um ambiente OOD? Abordamos o caso mais difícil com o SPA (Agente de Auto-Jogo). Sem dados extras, ferramentas ou modelos mais fortes. Jogo puramente autônomo. Primeiro, internalizamos um modelo de mundo através do Auto-Jogo, depois aprendemos a vencer por meio de RL. Como uma criança brincando com o ambiente para simplesmente aprender sobre "e se eu fizer isso?" Abaixo, mostramos nossas descobertas sobre: O que está errado com os ambientes OOD? Quais são os fatores-chave que permitem que o auto-jogo tenha sucesso? (1/8)