Để đo lường sự tiến bộ của thuật toán kể từ năm 2019, tôi đã huấn luyện lại GPT-2 bằng cách sử dụng stack nanogpt speedrun hiện đại. Hiện tại, nanogpt SOTA nhanh hơn 707 lần. Chúng ta có thể phân tích tổng tốc độ tăng lên thành > 15 lần nhanh hơn FLOP mỗi giây (trên phần cứng cố định) > 46 lần ít FLOPs hơn để đạt được cùng một mức mất mát val.