🚨DERNIÈRE MINUTE : OpenAI vous a dit que chaque mise à jour rendait ChatGPT plus intelligent. Stanford a prouvé le contraire. La précision de GPT-4 sur les problèmes mathématiques est tombée de 97,6 % à 2,4 % en seulement trois mois. Et personne ne vous l'a dit. Des chercheurs de Stanford et de l'UC Berkeley ont suivi la performance réelle de ChatGPT au fil du temps. Même prompts. Même tâches. Résultats différents. Le modèle qui réussissait presque parfaitement aux questions mathématiques en mars se trompait 97 fois sur 100 en juin. La génération de code a également chuté. En mars, plus de 50 % du code de GPT-4 fonctionnait parfaitement du premier coup. En juin, seulement 10 % le faisaient. Même questions. Réponses dramatiquement pires. Chaque mise à jour silencieuse qu'OpenAI a poussée a rendu le produit pour lequel vous payez 20 $ par mois silencieusement moins efficace dans les choses que vous utilisez réellement. Les chercheurs ont testé GPT-3.5 et GPT-4 sur les mathématiques, la programmation, les examens médicaux, le raisonnement et les questions sensibles. La dérive était massive et imprévisible. Certaines tâches se sont améliorées. D'autres ont chuté de manière spectaculaire. Et il n'y avait aucun moyen pour vous de savoir laquelle était laquelle, car OpenAI n'a jamais divulgué ce qui avait changé. Voici où cela devient personnel. Si vous avez utilisé ChatGPT pour du code en mars et que cela a fonctionné, puis que vous avez essayé la même chose en juin et que cela a échoué, vous vous êtes probablement blâmé. Vous avez pensé que vous l'aviez mal incité. Vous avez réessayé. Vous avez perdu des heures à déboguer vos propres questions. Mais ce n'était pas vous. Le modèle avait silencieusement changé sous vos yeux. Le VP Produit d'OpenAI a déclaré sur X : "nous n'avons pas rendu GPT-4 plus bête." Les données de Stanford disent le contraire. 97,6 % à 2,4 % n'est pas une question d'opinion. Chaque entreprise construisant sur l'API de ChatGPT, chaque étudiant s'y fiant pour ses devoirs, chaque développeur l'utilisant pour expédier du code se tient sur un sol qui se déplace sans avertissement. Vous lui avez fait confiance hier. Il a changé du jour au lendemain. Personne ne vous l'a dit. Vous ne l'imaginez pas. ChatGPT devient plus bête. Stanford l'a prouvé.