熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
我認為具有可驗證獎勵的強化學習將在推動大型語言模型(LLMs)邁向它們自己的「AlphaZero時刻」中變得越來越重要。這可能會從編碼開始,然後擴展到數學、物理學以及其他模型可以自我探索的領域,發現人類可能永遠無法想像的超出分佈的解決方案,並使用絕對獎勵信號(0/1)來驗證它們。
這也讓我想起@elonmusk談到的未來,程序可以直接生成為二進制,而不需要經過傳統的編譯過程。如果LLMs能夠生成二進制代碼,然後直接執行它以獲得可驗證的獎勵,那麼這實際上是可能的。
熱門
排行
收藏
