Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Myślę, że RL z weryfikowalnymi nagrodami stanie się coraz ważniejsze w kierowaniu LLM-ami ku ich własnemu „momentalnemu AlphaZero”. Prawdopodobnie zacznie się od kodowania, a następnie rozszerzy się na matematykę, fizykę i inne dziedziny, w których modele mogą samodzielnie eksplorować, odkrywać rozwiązania spoza rozkładu, których ludzie mogą nigdy nie wymyślić, i weryfikować je za pomocą absolutnego sygnału nagrody (0/1).
To również przypomina mi o @elonmusk mówiącym o przyszłości, w której programy mogłyby być generowane bezpośrednio jako binaria, bez przechodzenia przez tradycyjny proces kompilacji. To może być rzeczywiście możliwe, jeśli LLM-y będą mogły generować kod binarny, a następnie wykonywać go bezpośrednio w oparciu o weryfikowalną nagrodę.
Najlepsze
Ranking
Ulubione
