Bence doğrulanabilir ödüllere sahip gerçek hayatta kalan, LLM'leri kendi "AlphaZero anlarına" doğru itmede giderek daha önemli hale gelecek. Muhtemelen kodlama ile başlayacak, ardından matematik, fizik ve modellerin kendi kendini keşfedebileceği, insanların asla hayal bile edemeyeceği dağılma dışı çözümleri keşfedebileceği ve mutlak ödül sinyali (0/1) kullanarak doğrulayabileceği diğer alanlara da ulaşacak. Bu aynı zamanda bana @elonmusk programların geleneksel derleme sürecine girmeden doğrudan ikili olarak üretilebileceği bir gelecekten bahsettiğimi hatırlatıyor. LLM'ler ikili kod üretip doğrulanabilir bir ödüle doğrudan uygulayabiliyorsa bu aslında mümkün olabilir.