Kan roboter mestre kompleks manipulasjon ved å øve i sine egne AI-genererte videoer? Forskere fra Stanford og Tsinghua introduserer VLAW, et nytt rammeverk designet for å styrke robotlæring gjennom en kontinuerlig tilbakemeldingssløyfe. Metoden bruker en samforbedringsstrategi: virkelige robotdata brukes for å gjøre en videosimulator mer realistisk, som deretter genererer syntetiske øvingsdata av høy kvalitet for å trene robotens hjerne. Dette løser det vanlige problemet der simulatorer ikke klarer å fange opp de små, kritiske fysiske detaljene som trengs for vanskelige oppgaver. I virkelige eksperimenter oppnådde VLAW en forbedring i absolutt suksessrate på 39,2 prosent sammenlignet med basispolitikken, og overgikk standardmodeller betydelig ved å effektivt bygge bro mellom simulering og virkelighet. VLAW: Iterativ samforbedring av visjon-språk-handlingspolitikk og verdensmodell Artikkel: Kode: Vår rapport: