Questo è probabilmente il primo lavoro di RL su OpenClaw 🔥 MetaClaw: Basta parlare con il tuo agente e lasciarlo evolvere automaticamente. Github: La maggior parte degli agenti AI si blocca nel momento in cui vengono rilasciati. Ogni errore che commettono, lo ripeteranno domani. MetaClaw risolve questo problema. È uno strato di RL online costruito sopra OpenClaw che consente agli agenti di apprendere dalle proprie interazioni — nessun cluster GPU, nessun dataset offline, nessun team di ingegneri richiesto. Il ciclo è semplice: ogni conversazione viene registrata come una traiettoria di addestramento. Quando l'agente fallisce, analizza cosa è andato storto e propone una nuova abilità riutilizzabile. Gli aggiornamenti LoRA si addestrano in modo asincrono in background. La prossima volta che si presenta una situazione simile, l'abilità pertinente viene recuperata automaticamente nel prompt. L'agente non accumula solo conversazioni. Accumula capacità. Cosa rende questo diverso dal fine-tuning: non c'è pipeline di etichettatura umana, nessun ciclo di addestramento in batch, nessun ciclo di distribuzione. Il miglioramento avviene continuamente, invisibilmente, in produzione. Interazione → apprendimento → miglioramento, in un ciclo. Nessun dataset offline. Nessuna programmazione richiesta. Nessun cluster GPU. La parte da tenere d'occhio: questo trasforma ogni interazione dell'utente in un segnale di addestramento. L'agente che distribuisci il giorno uno non è l'agente che hai il giorno trenta. È stato plasmato da tutto ciò che ha sbagliato e corretto. Ottimo lavoro di @HuaxiuYaoML !