المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨عاجل: أخبرك OpenAI أن كل تحديث يجعل ChatGPT أكثر ذكاء.
ستانفورد أثبت العكس.
انخفضت دقة GPT-4 في مسائل الرياضيات من 97.6٪ إلى 2.4٪ خلال ثلاثة أشهر فقط. ولم يخبرك أحد.
تابع الباحثون في ستانفورد وجامعة كاليفورنيا بيركلي الأداء الفعلي لشات جي بي تي مع مرور الوقت. نفس الطلبات. نفس المهام. نتائج مختلفة. النموذج الذي كاد أن ينجح في أسئلة الرياضيات في مارس كان يخطئ فيها 97 من أصل 100 مرة بحلول يونيو.
انهار توليد الشيفرة أيضا. في مارس، كان أكثر من 50٪ من شيفرة GPT-4 تعمل بشكل مثالي من المحاولة الأولى. بحلول يونيو، لم يفعل سوى 10٪ ذلك. نفس الأسئلة. إجابات أسوأ بكثير. كل تحديث صامت دفعته OpenAI جعل المنتج الذي تدفع 20 دولارا شهريا له أسوأ بهدوء في الأشياء التي تستخدمه فعليا.
اختبر الباحثون GPT-3.5 وGPT-4 في الرياضيات، والبرمجة، والفحوصات الطبية، والتفكير، والأسئلة الحساسة. كان الانجراف هائلا وغير متوقع. تحسنت بعض المهام. وآخرون سقطوا من على جرف. ولم يكن هناك طريقة لمعرفة أيهما أي، لأن OpenAI لم تكشف أبدا عما تغير.
هنا تبدأ الأمور في الطابع الشخصي. إذا استخدمت ChatGPT للبرمجة في مارس ونجح، ثم جربت نفس الشيء في يونيو وتعطل، فربما تلوم نفسك. ظننت أنك دفعت ذلك بشكل خاطئ. حاولت مرة أخرى. أضعت ساعات في تصحيح أسئلتك بنفسك. لكن لم تكن أنت. النموذج تغير بصمت تحتك.
قال نائب رئيس المنتجات في OpenAI على X وقال: "لم نجعل GPT-4 أكثر غباء."
بيانات ستانفورد تقول عكس ذلك.
97.6٪ إلى 2.4٪ ليست مسألة رأي.
كل عمل تجاري يبني على واجهة برمجة تطبيقات ChatGPT، وكل طالب يعتمد عليه في الدراسة، وكل مطور يستخدمه لإصدار الكود يقف على أرض تتغير دون سابق إنذار. لقد وثقت به بالأمس. تغير بين ليلة وضحاها. لم يخبرك أحد.
أنت لا تتخيل ذلك. ChatGPT أصبح أكثر غباء. ستانفورد أثبت ذلك.

الأفضل
المُتصدِّرة
التطبيقات المفضلة
