RAG 壞掉了,沒有人在談論這件事 🤯 史丹佛大學剛發表了一篇關於「語義崩潰」的論文,證明一旦你的知識庫達到約 10,000 篇文檔,語義搜索就變成了一次字面上的擲硬幣。 這就是為什麼你的 RAG 失敗的原因: 超過 10,000 篇文檔後,你那華麗的 AI 搜索基本上變成了擲硬幣。 你添加的每一篇文檔都會轉換成高維嵌入。在小規模下,相似的文檔會完美聚集在一起。但添加足夠的數據後,空間就會填滿。距離壓縮。一切看起來都「相關」。 這就是維度詛咒。在 1000D 空間中,99.9% 的數據都位於外殼上,幾乎與任何查詢等距。 史丹佛發現,在 50,000 篇文檔時,精確度下降了 87%。添加更多上下文實際上會使幻覺變得更糟,而不是更好。我們以為 RAG 解決了幻覺問題……它只是把它們隱藏在數學背後。 解決方案不是重新排序或更好的分塊。它是層次檢索和圖形數據庫。