Om de algoritmische vooruitgang sinds 2019 te meten, heb ik GPT-2 opnieuw getraind met de moderne nanogpt speedrun stack. De huidige nanogpt SOTA is 707x sneller. We kunnen de totale versnelling decomponeren in > 15x sneller FLOP per seconde (op vaste hardware) > 46x minder FLOPs om dezelfde val verlies te bereiken.