Jeg tror RL med verifiserbare belønninger vil bli stadig viktigere for å presse LLM-er mot sitt eget "AlphaZero-øyeblikk." Det vil sannsynligvis begynne med koding, deretter utvides til matematikk, fysikk og andre områder hvor modeller kan utforske seg selv, oppdage løsninger utenfor distribusjon som mennesker kanskje aldri ville forestille seg, og verifisere dem ved hjelp av et absolutt belønningssignal (0/1). Dette minner meg også om @elonmusk snakket om en fremtid der programmer kunne genereres direkte som binærfiler, uten å gå gjennom den tradisjonelle kompilasjonsprosessen. Det kan faktisk være mulig hvis LLM-er kan generere binær kode og deretter kjøre den direkte mot en verifiserbar belønning.