🚨ULTIMA ORĂ: OpenAI v-a spus că fiecare actualizare face ChatGPT mai inteligent. Stanford a demonstrat contrariul. Acuratețea GPT-4 la problemele matematice a scăzut de la 97,6% la 2,4% în doar trei luni. Și nimeni nu ți-a spus. Cercetători de la Stanford și UC Berkeley au urmărit performanța reală a ChatGPT în timp. Aceleași sugestii. Aceleași sarcini. Rezultate diferite. Modelul care aproape a luat nota maximă la întrebări la matematică în martie greșea de 97 din 100 de ori până în iunie. Generarea de cod s-a prăbușit și ea. În martie, peste 50% din codul GPT-4 rula perfect din prima încercare. Până în iunie, doar 10% au făcut-o. Aceleași întrebări. Răspunsuri mult mai proaste. Fiecare actualizare silențioasă lansată de OpenAI făcea ca produsul pentru care plătești 20 de dolari pe lună să fie tăcut mai rău la lucrurile pentru care îl folosești efectiv. Cercetătorii au testat GPT-3.5 și GPT-4 în matematică, programare, examene medicale, raționament și întrebări sensibile. Deriva a fost masivă și imprevizibilă. Unele sarcini s-au îmbunătățit. Alții au căzut de pe o stâncă. Și nu aveai cum să știi care era care, pentru că OpenAI nu a dezvăluit niciodată ce s-a schimbat. Aici devine personal. Dacă ai folosit ChatGPT pentru cod în martie și a funcționat, apoi ai încercat același lucru în iunie și s-a stricat, probabil te-ai învinovățit. Ai crezut că ai greșit. Ai încercat din nou. Ai pierdut ore întregi depanându-ți propriile întrebări. Dar nu ai fost tu. Modelul se schimbase în tăcere sub tine. Vicepreședintele de Produs al OpenAI a intrat pe X și a spus "nu am făcut GPT-4 mai prost." Datele de la Stanford spun altceva. 97,6% față de 2,4% nu este o chestiune de opinie. Fiecare afacere care construiește pe API-ul ChatGPT, fiecare student care se bazează pe ea pentru temele școlare, fiecare dezvoltator care îl folosește pentru a livra cod stă pe un teren care se schimbă fără avertisment. Ai avut încredere în ea ieri. S-a schimbat peste noapte. Nimeni nu ți-a spus. Nu-ți imaginezi. ChatGPT devine tot mai prost. Stanford a dovedit asta.