这可能是关于 OpenClaw 的第一个 RL 作品 🔥 MetaClaw:只需与您的代理交谈,让它自动进化。 Github: 大多数 AI 代理在发布时就被冻结。它们犯的每一个错误,明天都会再犯。MetaClaw 解决了这个问题。 这是一个构建在 OpenClaw 之上的在线 RL 层,让代理能够从自己的互动中学习——不需要 GPU 集群,不需要离线数据集,也不需要工程团队。 这个循环很简单:每次对话都被记录为训练轨迹。当代理失败时,它会分析出错的原因并提出一个新的可重用技能。LoRA 更新在后台异步训练。下次出现类似情况时,相关技能会自动被提取到提示中。 代理不仅仅是积累对话。它积累的是能力。 这与微调的不同之处在于:没有人工标注流程,没有批量训练,没有部署周期。改进是持续的、隐形的,在生产中发生。互动 → 学习 → 改进,循环往复。 没有离线数据集。不需要编码。不需要 GPU 集群。 值得关注的部分:这将每个用户互动转化为训练信号。您在第一天部署的代理与您在第三十天拥有的代理并不是同一个。它已经被所有错误和修正所塑造。 @HuaxiuYaoML 的出色工作!