Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨BREAKING: OpenAI vertelde je dat elke update ChatGPT slimmer maakt.
Stanford bewees het tegendeel.
De nauwkeurigheid van GPT-4 op wiskundeproblemen daalde van 97,6% naar 2,4% in slechts drie maanden. En niemand vertelde je dat.
Onderzoekers van Stanford en UC Berkeley volgden de werkelijke prestaties van ChatGPT in de loop van de tijd. Zelfde prompts. Zelfde taken. Verschillende resultaten. Het model dat in maart bijna perfect was in wiskundevragen, kreeg in juni 97 van de 100 keer het fout.
Ook de codegeneratie stortte in. In maart draaide meer dan 50% van de code van GPT-4 perfect bij de eerste poging. In juni was dat nog maar 10%. Zelfde vragen. Dramatisch slechtere antwoorden. Elke stille update die OpenAI doorvoerde, maakte het product waarvoor je $20 per maand betaalt, stilletjes slechter in de dingen waarvoor je het daadwerkelijk gebruikt.
De onderzoekers testten GPT-3.5 en GPT-4 op wiskunde, coderen, medische examens, redeneren en gevoelige vragen. De afwijking was enorm en onvoorspelbaar. Sommige taken verbeterden. Andere vielen van een klif. En er was geen manier voor jou om te weten welke welke was, omdat OpenAI nooit onthulde wat er veranderd was.
Hier wordt het persoonlijk. Als je ChatGPT in maart voor code gebruikte en het werkte, en je probeerde hetzelfde in juni en het werkte niet, gaf je waarschijnlijk jezelf de schuld. Je dacht dat je het verkeerd had geformuleerd. Je probeerde het opnieuw. Je verspilde uren aan het debuggen van je eigen vragen. Maar het was niet jij. Het model was stilletjes veranderd onder je.
De VP van Product van OpenAI ging op X en zei "we hebben GPT-4 niet dommer gemaakt."
De gegevens van Stanford zeggen anders.
97,6% naar 2,4% is geen kwestie van mening.
Elk bedrijf dat op de API van ChatGPT bouwt, elke student die erop vertrouwt voor schoolwerk, elke ontwikkelaar die het gebruikt om code te verzenden, staat op grond die zonder waarschuwing verschuift. Je vertrouwde het gisteren. Het veranderde van de ene op de andere dag. Niemand vertelde je dat.
Je verbeeldt het niet. ChatGPT wordt dommer. Stanford bewees het.

Boven
Positie
Favorieten
