对于那些有眼光的人来说,处处都是指数级的改进。这是一个很酷的基准,而早期的非推理 LLM 完全无法做到这一点。 * 好吧,严格来说是“逻辑改进”,因为最大分数被限制在 100(而逻辑回归的 AIC 较低)