Це, ймовірно, перша робота RL на OpenClaw 🔥 MetaClaw: Просто поговори зі своїм агентом і дай йому розвиватися автоматично. Github: Більшість агентів ШІ заморожуються в момент відправлення. Кожну помилку, яку вони зроблять, повторять завтра. MetaClaw це виправляє. Це онлайн-рівень RL, побудований на основі OpenClaw, який дозволяє агентам навчатися на власних взаємодіях — без кластера GPU, без офлайн-набору даних, без потрібної інженерної команди. Цикл простий: кожна розмова фіксується як траєкторія тренувань. Коли агент не справляється, він аналізує, що пішло не так, і пропонує нову багаторазову навичку. Оновлення LoRA тренуються асинхронно у фоновому режимі. Наступного разу, коли виникає подібна ситуація, відповідна навичка автоматично повертається у запит. Агент не просто накопичує розмови. Він накопичує можливості. Чим це відрізняється від тонкого налаштування: немає людського маркування, немає пакетних навчальних запусків, немає циклу розгортання. Покращення відбувається безперервно, непомітно, у виробництві. Взаємодія → навчання → вдосконалення — це повторюється по колу. Немає офлайн-набору даних. Кодування не потрібне. Немає кластера GPU. Те, на що варто звернути увагу: це перетворює кожну взаємодію користувача на тренувальний сигнал. Агент, якого ви відправляєте в перший день, — це не той агент, який у вас був на тридцятий день. Вона була сформована через усе, що зробила помилку і виправила. Чудова робота від @HuaxiuYaoML!