🚨沒有人準備好這篇論文。 你使用的每個 LLM,無論是 GPT-4.1、Claude、Gemini、DeepSeek、Llama-4、Grok、Qwen,都有一個缺陷,無論如何擴展都無法修復。 它們無法區分舊信息和新信息。 一位病人的血壓:初診時 120。十分鐘後 128。出院時 125。 「最新的讀數是多少?」 任何人類:「125,顯然。」 每個 LLM,一旦更新堆積到一定程度:錯誤。不僅僅是偶爾錯誤。100% 錯誤。零準確性。完全幻覺。每個模型。沒有例外。 答案就在輸入的最末端。就在問題之前。不需要搜索。 模型就是無法放下舊的數值。 由 UVA 和 NYU 的研究人員測試的 35 個模型。所有 35 個都遵循完全相同的數學死亡曲線。隨著過時信息的積累,準確性以對數線性下降至零。 沒有平臺。沒有恢復。只是直線走向完全失敗。 它們借用了認知心理學中的一個概念,稱為主動干擾,舊記憶阻礙新記憶的回憶。在人類中,這種效應會達到平臺。我們的大腦學會抑制噪音,專注於當前的事物。 LLM 從未達到平臺。它們會下降,直到完全崩潰。 研究人員嘗試了一切: 「忘記舊的數值」- 幾乎沒有改變 思維鏈- 同樣崩潰...