DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Connor Davis

Fondatore di @getoutbox_ai Scopri come costruire AI Agents GRATUITAMENTE 👉 https://t.co/q9zPwlldZ4

MIT ha appena pubblicato un documento che spiega silenziosamente perché il ragionamento degli LLM incontra un ostacolo e come superarlo. La storia abituale è che i modelli falliscono su problemi difficili perché mancano di scala, dati o intelligenza. Questo documento sostiene qualcosa di molto più strutturale: i modelli smettono di migliorare perché il segnale di apprendimento scompare. Una volta che un compito diventa troppo difficile, i tassi di successo crollano verso zero, l'apprendimento per rinforzo non ha nulla da ottimizzare e il ragionamento ristagna. Il fallimento non è cognitivo, è pedagogico. Gli autori propongono un inquadramento semplice ma radicale. Invece di chiedere come far sì che i modelli risolvano problemi più difficili, chiedono come i modelli possano generare problemi che li insegnino. Il loro sistema, SOAR, divide un singolo modello pre-addestrato in due ruoli: uno studente che tenta compiti target estremamente difficili e un insegnante che genera nuovi problemi di addestramento. Il punto è che l'insegnante non viene premiato per produrre domande intelligenti o realistiche. Viene premiato solo se le prestazioni dello studente migliorano su un insieme fisso di problemi di valutazione reali. Nessun miglioramento significa zero ricompensa. Questa incentivazione rimodella tutto. L'insegnante impara a generare problemi intermedi, a tappe, che si trovano appena all'interno del confine di capacità attuale dello studente. Questi problemi non sono versioni semplificate del compito target e, sorprendentemente, non richiedono nemmeno soluzioni corrette. Ciò che conta è che la loro struttura costringe lo studente a praticare il giusto tipo di ragionamento, permettendo al segnale di gradiente di emergere anche quando la supervisione diretta fallisce. I risultati sperimentali rendono il punto dolorosamente chiaro. Su benchmark in cui i modelli partono con zero successi e l'apprendimento per rinforzo standard si appiattisce completamente, SOAR rompe il blocco e migliora costantemente le prestazioni. Il modello sfugge al limite di apprendibilità non pensando di più, ma costruendo un ambiente di apprendimento migliore per se stesso. L'implicazione più profonda è scomoda. Molti presunti "limiti di ragionamento" potrebbero non essere affatto limiti di intelligenza. Sono artefatti di configurazioni di addestramento che assumono che il mondo fornisca problemi apprendibili gratuitamente. Questo documento suggerisce che se i modelli possono plasmare il proprio curriculum, i plateau di ragionamento diventano problemi ingegneristici, non barriere fondamentali. Nessuna nuova architettura, nessun dato umano extra, nessun modello più grande. Solo un cambiamento in ciò che premiamo: il progresso nell'apprendimento invece delle risposte.

Cazzo santo... Questo documento spiega silenziosamente perché la maggior parte dei modelli di “ragionamento” crolla nel momento in cui li si scollega da benchmark puliti e li si getta nel mondo reale. Il team di LongCat affronta una domanda che il campo continua a evitare: se i modelli di oggi sono così bravi a ragionare, perché falliscono ancora nel comportamento di base degli agenti una volta che gli strumenti si rompono, le istruzioni diventano vaghe o gli ambienti reagiscono? La loro risposta è scomoda. Il ragionamento non fallisce perché le catene di pensiero sono troppo brevi. Fallisce perché abbiamo addestrato il pensiero senza conseguenze. Il documento introduce LongCat-Flash-Thinking-2601, un modello Mixture-of-Experts con 560 miliardi di parametri costruito attorno a un'idea semplice ma radicale: il ragionamento diventa affidabile solo quando è costretto ad agire, osservare il fallimento e adattarsi all'interno di ambienti reali. Invece di trattare il ragionamento come generazione di testo, lo inquadrano come un ciclo: osserva → pianifica → agisci → ricevi feedback → rivedi. Quello spostamento si ripercuote ovunque. I dati non sono più prompt statici. L'addestramento non è più traiettorie pulite. La valutazione non è più risposte a colpo singolo. Uno dei contributi più importanti è la scalabilità ambientale. Gli autori generano automaticamente oltre 10.000 ambienti eseguibili in oltre 20 domini, ciascuno ancorato a strumenti reali, database reali e molteplici percorsi di soluzione validi. La difficoltà aumenta strutturalmente, non con trucchi di prompt ingegnosi. Fondamentale, non disinfettano il mondo. I fallimenti degli strumenti, le istruzioni ambigue, le uscite parziali e i feedback rumorosi vengono deliberatamente iniettati. Il rumore non è un bug. È il curriculum. Per mantenere l'addestramento stabile a questa scala, estendono l'RL asincrono (DORA) per gestire interazioni a lungo termine e multi-turno con decine di migliaia di ambienti concorrenti senza collassare. Al momento dell'inferenza, introducono la Modalità di Pensiero Pesante. Invece di una lunga catena di pensiero, il modello esegue percorsi di ragionamento paralleli e poi riflette su di essi prima di agire. Questo supera costantemente la coerenza interna in compiti complessi e agentici. I risultati parlano chiaro. Prestazioni all'avanguardia su BrowseComp, τ²-Bench e VitaBench. Ottimi risultati in matematica, programmazione e ricerca. E, cosa più importante, molto meno degrado in condizioni rumorose. Il vero insegnamento è più netto di qualsiasi numero di benchmark: La qualità del ragionamento non è più il collo di bottiglia. La generalizzazione lo è. E la generalizzazione non deriva da prompt migliori o pensieri più lunghi. Deriva da ambienti che reagiscono. Se vogliamo agenti che funzionino al di fuori delle dimostrazioni, dobbiamo smettere di addestrarli in mondi puliti e immaginari. L'intelligenza non si forgia dove tutto va bene. Si forgia dove le cose si rompono. Documento: LongCat-Flash-Thinking-2601 Rapporto Tecnico Leggi il documento completo qui:

Principali

Ranking

Preferiti