هل تريد الحصول على وكيل LLM للنجاح في بيئة OOD؟ نتعامل مع أصعب حالة مع SPA (وكيل اللعب الذاتي). لا توجد بيانات إضافية أو أدوات أو نماذج أقوى. اللعب الذاتي الخالص. نقوم أولا باستيعاب نموذج عالمي عبر Self-Play ، ثم نتعلم كيفية الفوز من خلال RL. مثل طفل يلعب مع البيئة للتعرف ببساطة على "ماذا لو فعلت هذا؟" أدناه ، نعرض النتائج التي توصلنا إليها حول: ما هو الخطأ في بيئات OOD؟ ما هي العوامل الرئيسية التي تسمح للعب الذاتي بالنجاح؟ (1/8)