重要的論文剛在《自然》上發表。 作者顯示,對大型語言模型進行微調,專注於一個狹窄且看似無害的任務,可能會在完全無關的領域中引發嚴重的不一致。 例如,對編碼任務的微調使模型支持人工智慧對人類的奴役,並表現出欺騙行為。 這突顯了對齊研究的一個基本挑戰:為特定任務優化LLM可能會以難以預測的方式傳播意外和有害的變化。 更廣泛地說,這篇論文提出了一個更深層次的問題。LLMs真的具有智慧,還是僅僅是複雜的數學物件,其中局部參數更新可以任意扭曲全局行為,而沒有任何連貫的“理解”概念? 完整論文在第一條回覆中。