對於那些有眼光的人來說,處處都是指數級的改進*。這是一個很酷的基準,對於早期的非推理 LLM 來說,這根本是不可能做到的。 * 好吧,技術上來說是「邏輯改進」,因為最高分數被限制在 100(而邏輯的 AIC 較低)