Möchten Sie einen LLM-Agenten, der in einer OOD-Umgebung erfolgreich ist? Wir behandeln den schwierigsten Fall mit SPA (Self-Play Agent). Keine zusätzlichen Daten, Werkzeuge oder stärkeren Modelle. Reines Selbstspiel. Zuerst internalisieren wir ein Weltmodell durch Selbstspiel, dann lernen wir, wie man durch RL gewinnt. Wie ein Kind, das mit der Umgebung spielt, um einfach zu lernen: "Was passiert, wenn ich das mache?" Unten zeigen wir unsere Erkenntnisse zu: Was ist falsch mit OOD-Umgebungen? Was sind die Schlüsselfaktoren, die es dem Selbstspiel ermöglichen, erfolgreich zu sein? (1/8)