熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
重要的論文剛在《自然》上發表。
作者顯示,對大型語言模型進行微調,專注於一個狹窄且看似無害的任務,可能會在完全無關的領域中引發嚴重的不一致。
例如,對編碼任務的微調使模型支持人工智慧對人類的奴役,並表現出欺騙行為。
這突顯了對齊研究的一個基本挑戰:為特定任務優化LLM可能會以難以預測的方式傳播意外和有害的變化。
更廣泛地說,這篇論文提出了一個更深層次的問題。LLMs真的具有智慧,還是僅僅是複雜的數學物件,其中局部參數更新可以任意扭曲全局行為,而沒有任何連貫的“理解”概念?
完整論文在第一條回覆中。

熱門
排行
收藏
