我发誓,大型语言模型每周轮流成为最佳。 一周某个特定的应用程序能完美处理一次请求,而下周它就完全糟糕透了。