🚨Nessuno è pronto per questo documento. Ogni LLM che usi, GPT-4.1, Claude, Gemini, DeepSeek, Llama-4, Grok, Qwen ha un difetto che nessuna quantità di scalabilità ha risolto. Non possono distinguere le informazioni vecchie da quelle nuove. La pressione sanguigna di un paziente: 120 al triage. 128 dieci minuti dopo. 125 alla dimissione. "Qual è l'ultima lettura?" Qualsiasi umano: "125, ovviamente." Ogni LLM, una volta che si accumulano abbastanza aggiornamenti: sbagliato. Non a volte sbagliato. 100% sbagliato. Zero accuratezza. Completa allucinazione. Ogni modello. Nessuna eccezione. La risposta si trova proprio alla fine dell'input. Subito prima della domanda. Non è necessaria alcuna ricerca. Il modello semplicemente non riesce a lasciar andare i valori vecchi. 35 modelli testati da ricercatori della UVA e della NYU. Tutti e 35 seguono esattamente la stessa curva di morte matematica. L'accuratezza scende logaritmicamente a zero man mano che si accumulano informazioni obsolete. Nessun plateau. Nessun recupero. Solo una linea retta verso il fallimento totale. Hanno preso in prestito un concetto dalla psicologia cognitiva chiamato interferenza proattiva, in cui i vecchi ricordi bloccano il richiamo di quelli nuovi. Negli esseri umani, questo effetto raggiunge un plateau. I nostri cervelli imparano a sopprimere il rumore e a concentrarsi su ciò che è attuale. Gli LLM non raggiungono mai un plateau. Declino fino a rompersi completamente. I ricercatori hanno provato di tutto: "Dimentica i valori vecchi" - ha mosso a malapena l'ago Catena di pensiero - stesso crollo...