Dies ist wahrscheinlich die erste RL-Arbeit zu OpenClaw 🔥 MetaClaw: Sprich einfach mit deinem Agenten und lass ihn sich automatisch weiterentwickeln. Github: Die meisten KI-Agenten sind eingefroren, sobald sie ausgeliefert werden. Jeden Fehler, den sie machen, werden sie morgen wieder machen. MetaClaw behebt das. Es ist eine Online-RL-Schicht, die auf OpenClaw aufbaut und es Agenten ermöglicht, aus ihren eigenen Interaktionen zu lernen – kein GPU-Cluster, kein Offline-Datensatz, kein Ingenieurteam erforderlich. Der Loop ist einfach: Jedes Gespräch wird als Trainingsverlauf protokolliert. Wenn der Agent scheitert, analysiert er, was schiefgelaufen ist, und schlägt eine neue wiederverwendbare Fähigkeit vor. LoRA-Updates werden asynchron im Hintergrund trainiert. Das nächste Mal, wenn eine ähnliche Situation auftritt, wird die relevante Fähigkeit automatisch in den Prompt abgerufen. Der Agent sammelt nicht nur Gespräche. Er sammelt Fähigkeiten. Was das von Fine-Tuning unterscheidet: Es gibt keine menschliche Labeling-Pipeline, keine Batch-Trainingsläufe, keinen Bereitstellungszyklus. Die Verbesserung erfolgt kontinuierlich, unsichtbar, in der Produktion. Interaktion → Lernen → Verbesserung, in einer Schleife. Kein Offline-Datensatz. Kein Coding erforderlich. Kein GPU-Cluster. Der Teil, auf den man achten sollte: Das verwandelt jede Benutzerinteraktion in ein Trainingssignal. Der Agent, den du am ersten Tag einsetzt, ist nicht der Agent, den du am dreißigsten Tag hast. Er wurde durch alles, was er falsch gemacht hat und behoben hat, geformt. Großartige Arbeit von @HuaxiuYaoML !