一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

RAG 壞掉了，沒有人在談論這件事 🤯 史丹佛大學剛發表了一篇關於「語義崩潰」的論文，證明一旦你的知識庫達到約 10,000 篇文檔，語義搜索就變成了一次字面上的擲硬幣。這就是為什麼你的 RAG 失敗的原因：超過 10,000 篇文檔後，你那華麗的 AI 搜索基本上變成了擲硬幣。你添加的每一篇文檔都會轉換成高維嵌入。在小規模下，相似的文檔會完美聚集在一起。但添加足夠的數據後，空間就會填滿。距離壓縮。一切看起來都「相關」。這就是維度詛咒。在 1000D 空間中，99.9% 的數據都位於外殼上，幾乎與任何查詢等距。史丹佛發現，在 50,000 篇文檔時，精確度下降了 87%。添加更多上下文實際上會使幻覺變得更糟，而不是更好。我們以為 RAG 解決了幻覺問題……它只是把它們隱藏在數學背後。解決方案不是重新排序或更好的分塊。它是層次檢索和圖形數據庫。