Haluatko saada LLM-agentin menestymään OOD-ympäristössä? Käsittelemme vaikeinta tapausta SPA:n (Self-Play Agent) avulla. Ei ylimääräisiä tietoja, työkaluja tai vahvempia malleja. Puhdasta itseleikkiä. Sisäistämme ensin maailmanmallin Self-Playn avulla, sitten opimme voittamaan RL:llä. Kuten lapsi, joka leikkii ympäristöllä oppiakseen yksinkertaisesti "mitä jos teen tämän?" Alla esittelemme havaintomme: Mitä vikaa OOD-ympäristöissä on? Mitkä ovat tärkeimmät tekijät, jotka mahdollistavat itseleikin onnistumisen? (1/8)