これはおそらくOpenClaw 🔥に関する最初の強化学習の作品です MetaClaw:エージェントと話して、自動的に進化させてください。 GitHub: ほとんどのAIエージェントは出荷した瞬間に凍結されます。彼らが犯すミスは、明日もまた繰り返す。MetaClawはそれを修正します。 これはOpenClawの上に構築されたオンライン強化学習レイヤーで、エージェントが自分のやり取りから学習できるようになっています。GPUクラスターもオフラインデータセットもエンジニアリングチームも不要です。 ループはシンプルです。すべての会話が訓練の軌跡として記録されます。エージェントが失敗すると、何が間違っていたのか分析し、新しい再利用可能なスキルを提案します。LoRAはバックグラウンドで列車を非同期的に更新します。次に似たような状況が起きたとき、該当するスキルは自動的にプロンプトに取り戻されます。 エージェントは単に会話を積み重ねるだけではありません。能力が蓄積されます。 これがファインチューニングと異なる点は、人間のラベリングパイプラインもバッチトレーニングもデプロイサイクルもないことです。改善は生産段階で目に見えない形で継続的に起こります。インタラクション→学習→向上がループしています。 オフラインのデータセットはありません。コーディングは不要です。GPUクラスターはありません。 注目すべき点は、すべてのユーザーのやり取りをトレーニング信号に変換するということです。初日に派遣したエージェントは、30日目のエージェントとは違います。それはあらゆる問題によって形作られ、間違って修正されてきました。 @HuaxiuYaoML、素晴らしい仕事です!