Chcesz, aby agent LLM odniósł sukces w środowisku OOD? Zajmujemy się najtrudniejszym przypadkiem z SPA (Self-Play Agent). Bez dodatkowych danych, narzędzi ani silniejszych modeli. Czysta gra samodzielna. Najpierw internalizujemy model świata poprzez grę samodzielną, a następnie uczymy się, jak wygrywać dzięki RL. Jak dziecko bawiące się w środowisku, aby po prostu dowiedzieć się „co się stanie, jeśli to zrobię?” Poniżej przedstawiamy nasze odkrycia na temat: Co jest nie tak z środowiskami OOD? Jakie są kluczowe czynniki, które pozwalają na sukces gry samodzielnej? (1/8)