🚨速報:OpenAIは、アップデートごとにChatGPTが賢くなると言っていました。 しかしスタンフォードはその逆を証明しました。 GPT-4の数学問題の正確率はわずか3か月で97.6%から2.4%に低下しました。そして誰も教えてくれなかった。 スタンフォード大学とカリフォルニア大学バークレー校の研究者たちは、ChatGPTの実際のパフォーマンスを時間とともに追跡しました。同じプロンプトです。同じ作業です。結果は様々です。3月に数学の問題でほぼ満点を取るモデルは、6月には100回中97回も間違えていました。 コード生成も崩壊しました。3月には、GPT-4のコードの50%以上が初回試行で完璧に動作しました。6月には10%にとどまりました。同じ質問です。はるかにひどい回答です。OpenAIが押し出したサイレントアップデートのたびに、月に20ドル払っている製品が実際に使っている用途が静かに劣っていきました。 研究者たちは、数学、コーディング、医療試験、推論、そして繊細な質問に関してGPT-3.5とGPT-4をテストしました。その漂流は巨大で予測不可能だった。いくつかの課題は改善されました。他の者たちは崖から落ちた。そして、OpenAIが何が変わったのかを明かさなかったため、どちらがどちらかを知る方法もありませんでした。 ここからが個人的な話です。3月にChatGPTを使ってコードが動いたのに、6月に同じことを試して壊れたなら、自分のせいだと思ったのでしょう。あなたは自分が間違ったタイミングで促したと思っていた。あなたはもう一度試みた。自分の質問をデバッグするのに何時間も無駄にしました。でも、それはあなたじゃなかった。モデルは静かにあなたの下で変わっていた。 OpenAIのプロダクト担当副社長はXで「GPT-4を愚かにしていない」と述べました。 スタンフォードのデータはそれとは異なることを示しています。 97.6%対2.4%は意見の問題ではありません。 ChatGPTのAPIを基盤にしているすべてのビジネス、学校の課題に依存するすべての学生、コードの提供に使うすべての開発者が、予告なしに揺れる地盤の上に立っているのです。昨日は信じていた。一晩で変わった。誰も教えてくれなかった。 気のせいじゃないよ。ChatGPTはどんどん愚かになってきています。スタンフォードがそれを証明しました。