Bạn muốn có một tác nhân LLM để thành công trong môi trường OOD? Chúng tôi giải quyết trường hợp khó nhất với SPA (Tác nhân Tự Chơi). Không cần dữ liệu bổ sung, công cụ hay mô hình mạnh hơn. Hoàn toàn tự chơi. Chúng tôi đầu tiên nội tâm hóa một mô hình thế giới thông qua Tự Chơi, sau đó chúng tôi học cách để chiến thắng bằng RL. Giống như một đứa trẻ chơi với môi trường để đơn giản học về "nếu tôi làm điều này thì sao?" Dưới đây, chúng tôi trình bày những phát hiện của mình về: Điều gì sai với các môi trường OOD? Những yếu tố chính nào cho phép tự chơi thành công? (1/8)