Para medir o progresso algorítmico desde 2019, re-treinei o GPT-2 usando a pilha moderna de speedrun nanogpt. O SOTA atual do nanogpt é 707x mais rápido. Podemos decompor o aumento total de velocidade em > 15x mais FLOP por segundo (em hardware fixo) > 46x menos FLOPs para alcançar a mesma perda de validação.