Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Je pense que l'apprentissage par renforcement avec des récompenses vérifiables deviendra de plus en plus important pour pousser les LLM vers leur propre "moment AlphaZero". Cela commencera probablement par la programmation, puis s'étendra aux mathématiques, à la physique et à d'autres domaines où les modèles peuvent s'auto-explorer, découvrir des solutions hors distribution que les humains n'auraient jamais imaginées, et les vérifier en utilisant un signal de récompense absolu (0/1).
Cela me rappelle aussi @elonmusk parlant d'un avenir où des programmes pourraient être générés directement sous forme binaire, sans passer par le processus de compilation traditionnel. Cela pourrait en fait être possible si les LLM peuvent générer du code binaire et ensuite l'exécuter directement contre une récompense vérifiable.
Meilleurs
Classement
Favoris
