Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
To prawdopodobnie pierwsza praca RL na OpenClaw 🔥
MetaClaw: Po prostu porozmawiaj ze swoim agentem i pozwól mu ewoluować automatycznie.
Github:
Większość agentów AI jest zamrożona w momencie, gdy zostaną wydani. Każdy błąd, który popełnią, powtórzą jutro. MetaClaw to naprawia.
To warstwa RL online zbudowana na OpenClaw, która pozwala agentom uczyć się na podstawie własnych interakcji — bez klastra GPU, bez zbioru danych offline, bez zespołu inżynierów.
Pętla jest prosta: każda rozmowa jest rejestrowana jako trajektoria treningowa. Kiedy agent zawodzi, analizuje, co poszło nie tak i proponuje nową umiejętność do ponownego wykorzystania. Aktualizacje LoRA trenują asynchronicznie w tle. Następnym razem, gdy pojawi się podobna sytuacja, odpowiednia umiejętność jest automatycznie pobierana do promptu.
Agent nie tylko gromadzi rozmowy. Gromadzi zdolności.
Co sprawia, że to różni się od fine-tuningu: nie ma ludzkiego procesu etykietowania, nie ma treningów wsadowych, nie ma cyklu wdrożeniowego. Ulepszenie odbywa się ciągle, niewidocznie, w produkcji. Interakcja → uczenie się → poprawa, w pętli.
Brak zbioru danych offline. Nie wymaga kodowania. Brak klastra GPU.
Część, na którą warto zwrócić uwagę: to przekształca każdą interakcję użytkownika w sygnał treningowy. Agent, którego wdrażasz w dniu pierwszym, nie jest tym samym agentem, którego masz w dniu trzydziestym. Został ukształtowany przez wszystko, co zrobił źle i naprawił.
Świetna praca @HuaxiuYaoML !
Najlepsze
Ranking
Ulubione
