Ich denke, dass RL mit verifizierbaren Belohnungen zunehmend wichtig werden wird, um LLMs in Richtung ihres eigenen „AlphaZero-Moments“ zu drängen. Es wird wahrscheinlich mit Programmierung beginnen und sich dann auf Mathematik, Physik und andere Bereiche ausdehnen, in denen Modelle selbstständig erkunden, Lösungen außerhalb der Verteilung entdecken können, die Menschen sich vielleicht nie vorstellen würden, und diese mit einem absoluten Belohnungssignal (0/1) verifizieren können. Das erinnert mich auch an @elonmusk, der über eine Zukunft spricht, in der Programme direkt als Binärcode generiert werden könnten, ohne den traditionellen Kompilierungsprozess zu durchlaufen. Das könnte tatsächlich möglich sein, wenn LLMs Binärcode generieren und diesen dann direkt gegen eine verifizierbare Belohnung ausführen können.