المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
.@AnkythShukla أظهرت تمييزا واضحا يغفل عنه معظم بناة الذكاء الاصطناعي.
"تقييم، يمكن أن يكون أي شيء، أليس كذلك؟ لو كنا نشرح هذا ببساطة جدا، فقد يكون أي نوع من الاختبارات. قد يكون اختبار وحدة في اللغة القديمة. قد يكون مجرد عد للكلمات هنا. أو في أكثر الأشكال تقدما، كما أظهرنا، يمكن أن يكون حكم في نموذج اللغة الكبيرة، وهو نوع من تكرار بعض الحدس البشري الذي قمنا بترميزه في ذلك التحفيز الذي رأيناه."
هذا يعيد صياغة نقاش تقييم الذكاء الاصطناعي بالكامل.
معظم الفرق تسمع "التقييمات" وتفكر في خطوط معالجة معقدة لنماذج اللغة الكبيرة كحكام. يشعرون بالخوف. هم يتجنبونها. يتم شحنهم بدون قياس.
الواقع من هذه الحلقة في بودكاست @aakashgupta:
> يمكن أن يكون التقييم بسيطا مثل دالة عدد الكلمات أو اختبار وحدة. مستوى البداية منخفض. تكلفة تخطيها مرتفعة.
> حكم نموذج اللغة الكبير هو الشكل المتقدم - ترميز الحدس البشري في محفز يقيم مخرجات الذكاء الاصطناعي على نطاق واسع.
> يمتد الطيف من فحوصات الشيفرة الحتمية إلى التقييم الذاتي للجودة. كلاهما مهم. كلاهما مهم.
> هذا يعكس مباشرة سبب فشل النماذج الأولية على نطاق واسع. حدد @AnkythShukla خمسة أسباب، لكن اثنين يبرزان:
انحراف البيانات: تم بناء المنتج من أجل واقع واحد. المستخدمون يعيشون في مكان آخر. بدون التقييمات التي تستمر باستمرار، لن تلتقط الانحراف أبدا.
التكلفة: خدمة SaaS لديها تكلفة هامشية شبه معدومة لكل مستخدم. الذكاء الاصطناعي لا يفعل ذلك. كل مكالمة تكلف مالا. بدون تقييمات تخبرك أي المكالمات تعمل وأيها مهدر، تتضخم التكاليف دون قيمة نسبية.
الخلاصة: تقييمات الذكاء الاصطناعي ليست رفاهية ذات جودة عالية. هي البنية التحتية التشغيلية التي تحدد ما إذا كان النموذج الأولي سيصبح منتجا أو مجرد إحصائية في معدل فشل 95٪.
الأفضل
المُتصدِّرة
التطبيقات المفضلة
