Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
RAG er ødelagt og ingen snakker om det 🤯
Stanford slapp nettopp en artikkel om «Semantisk kollaps», som beviser at når kunnskapsbasen din når ~10 000 dokumenter, blir semantisk søk et bokstavelig myntkast.
Her er hvorfor RAG-en din feiler:
Etter 10 000 dokumenter blir ditt fancy AI-søk i praksis et myntkast.
Hvert dokument du legger til blir gjort om til en høydimensjonal embedding. I liten skala samler lignende dokumenter seg perfekt. Men legger du til nok data, fylles plassen opp. Avstander komprimeres. Alt ser «relevant» ut.
Det er forbannelsen av dimensjonalitet. I 1000D-rommet ligger 99,9 % av dataene dine på det ytre skallet, nesten like langt fra enhver spørring.
Stanford fant et nøyaktighetsfall på 87 % ved 50 000 dokumenter. Å legge til mer kontekst gjør faktisk hallusinasjonene verre, ikke bedre. Vi trodde RAG løste hallusinasjoner... Det skjulte dem bare bak matte.
Løsningen er ikke omrangering eller bedre chunking. Det er hierarkisk henting og grafdatabaser.

Topp
Rangering
Favoritter
