Vuoi ottenere un agente LLM per avere successo in un ambiente OOD? Affrontiamo il caso più difficile con SPA (Self-Play Agent). Nessun dato extra, strumenti o modelli più potenti. Solo auto-gioco. Prima internalizziamo un modello del mondo tramite l'auto-gioco, poi impariamo a vincere tramite RL. Come un bambino che gioca con l'ambiente per semplicemente imparare "cosa succede se faccio questo?" Di seguito, mostriamo le nostre scoperte su: Cosa c'è di sbagliato negli ambienti OOD? Quali sono i fattori chiave che permettono all'auto-gioco di avere successo? (1/8)