¿Quiere que un agente de LLM tenga éxito en un entorno OOD? Abordamos el caso más difícil con SPA (Self-Play Agent). Sin datos adicionales, herramientas ni modelos más sólidos. Puro juego propio. Primero internalizamos un modelo de mundo a través del autojuego, luego aprendemos a ganar por RL. Como un niño que juega con el medio ambiente para simplemente aprender sobre "¿y si hago esto?" A continuación, mostramos nuestros hallazgos sobre: ¿Qué hay de malo en los entornos OOD? ¿Cuáles son los factores clave que permiten que el autojuego tenga éxito? (1/8)