DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Connor Davis

Gründer von @getoutbox_ai Lernen Sie, wie Sie KI-Agenten KOSTENLOS 👉 https://t.co/q9zPwlldZ4

MIT hat gerade ein Papier veröffentlicht, das leise erklärt, warum das Denken von LLMs an eine Wand stößt und wie man darüber hinauskommt. Die übliche Geschichte ist, dass Modelle bei schwierigen Problemen scheitern, weil ihnen Skalierung, Daten oder Intelligenz fehlen. Dieses Papier argumentiert etwas viel Strukturelleres: Modelle hören auf, sich zu verbessern, weil das Lernsignal verschwindet. Sobald eine Aufgabe zu schwierig wird, sinken die Erfolgsquoten gegen null, das verstärkende Lernen hat nichts zu optimieren, und das Denken stagniert. Das Scheitern ist nicht kognitiv, sondern pädagogisch. Die Autoren schlagen eine einfache, aber radikale Umformulierung vor. Anstatt zu fragen, wie man Modelle dazu bringen kann, schwierigere Probleme zu lösen, fragen sie, wie Modelle Probleme generieren können, die sie lehren. Ihr System, SOAR, teilt ein einzelnes vortrainiertes Modell in zwei Rollen auf: einen Schüler, der extrem schwierige Zielaufgaben versucht, und einen Lehrer, der neue Trainingsprobleme generiert. Der Haken ist, dass der Lehrer nicht dafür belohnt wird, clevere oder realistische Fragen zu stellen. Er wird nur belohnt, wenn die Leistung des Schülers bei einem festen Satz von realen Bewertungsproblemen verbessert wird. Keine Verbesserung bedeutet null Belohnung. Dieser Anreiz verändert alles. Der Lehrer lernt, Zwischenprobleme zu generieren, die gerade innerhalb der aktuellen Fähigkeitsgrenze des Schülers liegen. Diese Probleme sind keine vereinfachten Versionen der Zielaufgabe, und bemerkenswerterweise erfordern sie nicht einmal korrekte Lösungen. Was zählt, ist, dass ihre Struktur den Schüler zwingt, die richtige Art von Denken zu üben, wodurch das Gradienten-Signal auch dann entsteht, wenn die direkte Aufsicht versagt. Die experimentellen Ergebnisse machen den Punkt schmerzhaft deutlich. Bei Benchmarks, bei denen Modelle mit null Erfolg beginnen und das standardmäßige verstärkende Lernen völlig stagnierend ist, durchbricht SOAR den Stillstand und verbessert die Leistung stetig. Das Modell entkommt der Grenze der Lernbarkeit nicht, indem es härter denkt, sondern indem es sich selbst eine bessere Lernumgebung schafft. Die tiefere Implikation ist unangenehm. Viele angebliche "Denkschranken" sind möglicherweise überhaupt keine Grenzen der Intelligenz. Sie sind Artefakte von Trainingsaufbauten, die annehmen, dass die Welt kostenlos lernbare Probleme bereitstellt. Dieses Papier legt nahe, dass, wenn Modelle ihren eigenen Lehrplan gestalten können, Denkplateaus zu Ingenieurproblemen werden, nicht zu fundamentalen Barrieren. Keine neuen Architekturen, keine zusätzlichen menschlichen Daten, keine größeren Modelle. Nur eine Verschiebung dessen, was wir belohnen: Lernfortschritt statt Antworten.

Heilige Scheiße... Dieses Papier erklärt leise, warum die meisten "denkenden" Modelle zusammenbrechen, sobald man sie von sauberen Benchmarks trennt und in die reale Welt eintaucht. Das LongCat-Team beschäftigt sich mit einer Frage, die das Feld immer wieder umgeht: Wenn die heutigen Modelle so gut im Denken sind, warum scheitern sie dann immer noch an grundlegenden Verhaltensweisen von Agenten, sobald Werkzeuge versagen, Anweisungen unklar werden oder Umgebungen zurückschlagen? Ihre Antwort ist unangenehm. Denken scheitert nicht, weil die Gedankenketten zu kurz sind. Es scheitert, weil wir das Denken ohne Konsequenzen trainiert haben. Das Papier stellt LongCat-Flash-Thinking-2601 vor, ein 560B-Parameter Mixture-of-Experts-Modell, das auf einer einfachen, aber radikalen Idee basiert: Denken wird nur dann zuverlässig, wenn es gezwungen wird zu handeln, Misserfolge zu beobachten und sich in realen Umgebungen anzupassen. Anstatt Denken als Textgenerierung zu behandeln, rahmen sie es als Schleife ein: beobachten → planen → handeln → Feedback erhalten → überarbeiten. Dieser Wandel hat überall Auswirkungen. Daten sind nicht mehr statische Eingabeaufforderungen. Training sind keine sauberen Trajektorien. Evaluation sind keine einmaligen Antworten. Einer der wichtigsten Beiträge ist die Skalierung der Umgebung. Die Autoren generieren automatisch über 10.000 ausführbare Umgebungen in über 20 Domänen, die alle in realen Werkzeugen, realen Datenbanken und mehreren gültigen Lösungswegen verankert sind. Die Schwierigkeit steigt strukturell, nicht durch clevere Eingabeaufforderungen. Wesentlich ist, dass sie die Welt nicht sanieren. Werkzeugfehler, mehrdeutige Anweisungen, teilweise Ausgaben und rauschendes Feedback werden absichtlich injiziert. Rauschen ist kein Fehler. Es ist der Lehrplan. Um das Training in diesem Maßstab stabil zu halten, erweitern sie asynchrones RL (DORA), um langanhaltende, mehrstufige Interaktionen mit zehntausenden gleichzeitigen Umgebungen zu bewältigen, ohne zusammenzubrechen. Zur Inferenzzeit führen sie den Heavy Thinking Mode ein. Anstatt einer langen Gedankenkette führt das Modell parallele Denkpfade aus und reflektiert dann über sie, bevor es handelt. Dies übertrifft konsequent die Selbstkonsistenz bei komplexen, agentischen Aufgaben. Die Ergebnisse sprechen Bände. Spitzenleistung bei BrowseComp, τ²-Bench und VitaBench. Starke Ergebnisse in Mathematik, Programmierung und Suche. Und am wichtigsten, viel weniger Verschlechterung unter rauschenden Bedingungen. Die eigentliche Erkenntnis ist schärfer als jede Benchmark-Zahl: Die Qualität des Denkens ist nicht länger der Engpass. Die Generalisierung ist es. Und Generalisierung kommt nicht von besseren Eingabeaufforderungen oder längeren Gedanken. Sie kommt von Umgebungen, die zurückschlagen. Wenn wir Agenten wollen, die außerhalb von Demos funktionieren, müssen wir aufhören, sie in sauberen, imaginären Welten zu trainieren. Intelligenz wird nicht dort geschmiedet, wo alles gut läuft. Sie wird dort geschmiedet, wo Dinge brechen. Papier: LongCat-Flash-Thinking-2601 Technischer Bericht Lese das vollständige Papier hier:

Top

Ranking

Favoriten