Щоб виміряти прогрес алгоритмів з 2019 року, я перенавчив GPT-2 за допомогою сучасного стека nanogpt speedrun. Поточний nanogpt SOTA у 707 разів швидший. Ми можемо розкласти повне прискорення на > 15 разів швидший FLOP за секунду (на фіксованому обладнанні) > у 46 разів менше FLOP, щоб досягти такої ж втрати val.