Myslím, že reálné technologie s ověřitelnými odměnami budou stále důležitější pro posouvání LLM k jejich vlastnímu "AlphaZero momentu". Pravděpodobně začne kódováním a poté se rozšíří do matematiky, fyziky a dalších oblastí, kde se modely mohou samy zkoumat, objevovat řešení mimo distribuci, která si lidé možná nikdy nepředstaví, a ověřovat je pomocí absolutního signálu odměny (0/1). To mi také připomíná @elonmusk mluvení o budoucnosti, kde by programy mohly být generovány přímo jako binární soubory, aniž by prošly tradičním procesem kompilace. To by mohlo být skutečně možné, pokud by LLM dokázaly generovat binární kód a pak jej přímo spustit na základě ověřitelné odměny.