我發誓這些大型語言模型每週輪流成為最佳。 一週某個特定的應用程式能完美處理一次請求,而下一週卻完全糟糕透頂。