RAG is kapot en niemand praat erover 🤯 Stanford heeft net een paper gepubliceerd over "Semantische Inzakking," waarin wordt bewezen dat zodra je kennisbasis ~10.000 documenten bereikt, semantische zoekopdrachten een letterlijke muntflip worden. Hier is waarom jouw RAG faalt: Na 10.000 documenten wordt jouw fancy AI-zoekfunctie in wezen een muntflip. Elk document dat je toevoegt, wordt omgezet in een hoge-dimensionale embedding. Op kleine schaal clusteren vergelijkbare documenten perfect samen. Maar voeg genoeg data toe, en de ruimte raakt vol. Afstanden worden samengedrukt. Alles lijkt "relevant." Het is de vloek van dimensionaliteit. In een 1000D-ruimte leeft 99,9% van je data op de buitenste schil, bijna op gelijke afstand van elke query. Stanford vond een precisiedaling van 87% bij 50k documenten. Meer context toevoegen maakt hallucinaties eigenlijk erger, niet beter. We dachten dat RAG hallucinaties oploste… het verstopte ze gewoon achter wiskunde. De oplossing is niet her-rangschikken of beter chunking. Het is hiërarchische retrieval en grafdatabases.