RAG rusak dan tidak ada yang membicarakannya 🤯 Stanford baru saja menjatuhkan makalah tentang "Keruntuhan Semantik," membuktikan bahwa begitu basis pengetahuan Anda mencapai ~ 10.000 dokumen, pencarian semantik menjadi lemparan koin harfiah. Inilah mengapa RAG Anda gagal: Melewati 10.000 dokumen, pencarian AI mewah Anda pada dasarnya menjadi lemparan koin. Setiap dokumen yang Anda tambahkan akan diubah menjadi penyematan dimensi tinggi. Dalam skala kecil, dokumen serupa berkumpul bersama dengan sempurna. Tetapi tambahkan data yang cukup, dan ruang akan terisi. Jarak dikompresi. Semuanya terlihat "relevan". Ini adalah kutukan dimensi. Dalam ruang 1000D, 99,9% data Anda berada di kulit luar, hampir sama jauh dari kueri apa pun. Stanford menemukan penurunan presisi 87% pada 50k dokumen. Menambahkan lebih banyak konteks sebenarnya membuat halusinasi lebih buruk, bukan lebih baik. Kami pikir RAG memecahkan halusinasi... itu hanya menyembunyikan mereka di balik matematika. Perbaikannya bukanlah peringkat ulang atau pemotongan yang lebih baik. Ini adalah pengambilan hierarkis dan database grafik.