一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

我認為具有可驗證獎勵的強化學習將在推動大型語言模型（LLMs）邁向它們自己的「AlphaZero時刻」中變得越來越重要。這可能會從編碼開始，然後擴展到數學、物理學以及其他模型可以自我探索的領域，發現人類可能永遠無法想像的超出分佈的解決方案，並使用絕對獎勵信號（0/1）來驗證它們。這也讓我想起@elonmusk談到的未來，程序可以直接生成為二進制，而不需要經過傳統的編譯過程。如果LLMs能夠生成二進制代碼，然後直接執行它以獲得可驗證的獎勵，那麼這實際上是可能的。