熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
RAG 壞掉了,沒有人在談論這件事 🤯
史丹佛大學剛發表了一篇關於「語義崩潰」的論文,證明一旦你的知識庫達到約 10,000 篇文檔,語義搜索就變成了一次字面上的擲硬幣。
這就是為什麼你的 RAG 失敗的原因:
超過 10,000 篇文檔後,你那華麗的 AI 搜索基本上變成了擲硬幣。
你添加的每一篇文檔都會轉換成高維嵌入。在小規模下,相似的文檔會完美聚集在一起。但添加足夠的數據後,空間就會填滿。距離壓縮。一切看起來都「相關」。
這就是維度詛咒。在 1000D 空間中,99.9% 的數據都位於外殼上,幾乎與任何查詢等距。
史丹佛發現,在 50,000 篇文檔時,精確度下降了 87%。添加更多上下文實際上會使幻覺變得更糟,而不是更好。我們以為 RAG 解決了幻覺問題……它只是把它們隱藏在數學背後。
解決方案不是重新排序或更好的分塊。它是層次檢索和圖形數據庫。

熱門
排行
收藏
