المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨 أصدرت NVIDIA مؤخرا مخططا لتدريب نماذج الذكاء الاصطناعي ذات التريليونات معاملات.
ويشرح بهدوء كيف أن الجيل القادم من النماذج سيتوسع بشكل أبعد بكثير من نماذج اللغة الكبيرة الحالية.
تقدم الورقة نظاما لتدريب نماذج مزيج الخبراء (MoE) باستخدام Megatron Core، نفس عائلة البنية التحتية المستخدمة لتدريب بعض أكبر النماذج في العالم.
الفكرة الأساسية وراء وزارة التعليم بسيطة لكنها قوية:
بدلا من تفعيل النموذج الكامل لكل رمز، يقوم النظام بتوجيه كل رمز إلى عدد قليل فقط من "الخبراء" المتخصصين.
هذا يعني أنه يمكنك توسيع المعاملات الإجمالية بشكل كبير دون زيادة الحوسبة لكل رمز.
نظريا، هذا يعطيك ما يلي:
• سعة تريليون معلم
• حساب على مستوى النموذج الكثيف لكل رمز
• مكاسب كفاءة هائلة
لكن في الواقع، هذا يكسر كل شيء.
تدريب نماذج MoE يخلق كابوسا عبر ثلاث طبقات أنظمة:
ذاكرة. التواصل. الحساب.
إذا حسنت أحدهما ستتسبب في عنق الزجاجة للبقية.
حل NVIDIA هو في الأساس تصميم مشترك شامل لخط أنابيب التدريب بالكامل.
قدموا عدة تحسينات على مستوى النظام:
...

الأفضل
المُتصدِّرة
التطبيقات المفضلة
