متجر التطبيق اللامركزي | مركز Web3 للأحداث والألعاب

المواضيع الرائجة

Ihtesham

مستثمر، كاتب، معلم، ومحب 🐉 للعبة دراغون بول

🚨 أصدرت NVIDIA مؤخرا مخططا لتدريب نماذج الذكاء الاصطناعي ذات التريليونات معاملات. ويشرح بهدوء كيف أن الجيل القادم من النماذج سيتوسع بشكل أبعد بكثير من نماذج اللغة الكبيرة الحالية. تقدم الورقة نظاما لتدريب نماذج مزيج الخبراء (MoE) باستخدام Megatron Core، نفس عائلة البنية التحتية المستخدمة لتدريب بعض أكبر النماذج في العالم. الفكرة الأساسية وراء وزارة التعليم بسيطة لكنها قوية: بدلا من تفعيل النموذج الكامل لكل رمز، يقوم النظام بتوجيه كل رمز إلى عدد قليل فقط من "الخبراء" المتخصصين. هذا يعني أنه يمكنك توسيع المعاملات الإجمالية بشكل كبير دون زيادة الحوسبة لكل رمز. نظريا، هذا يعطيك ما يلي: • سعة تريليون معلم • حساب على مستوى النموذج الكثيف لكل رمز • مكاسب كفاءة هائلة لكن في الواقع، هذا يكسر كل شيء. تدريب نماذج MoE يخلق كابوسا عبر ثلاث طبقات أنظمة: ذاكرة. التواصل. الحساب. إذا حسنت أحدهما ستتسبب في عنق الزجاجة للبقية. حل NVIDIA هو في الأساس تصميم مشترك شامل لخط أنابيب التدريب بالكامل. قدموا عدة تحسينات على مستوى النظام: • إعادة حساب دقيقة وتفريغ الذاكرة للتحكم في ضغط ذاكرة وحدة معالجة الرسوميات • موزعي الرموز المحسنة بحيث يمكن توجيه الرموز بين الخبراء بكفاءة • رسوم GEMM + CUDA المجمعة لتعظيم استخدام حساب وحدة معالجة الرسومات • الطي المتوازي، الذي يتيح التوازي متعدد الأبعاد المرن بين وحدات معالجة الرسومات • تدريب منخفض الدقة (FP8 / NVFP4) لتقليل تكلفة الحوسبة بشكل كبير كل هذا يعمل داخل حزمة التدريب المفتوحة المصدر من NVIDIA على Megatron Core. أرقام الأداء سخيفة. حول أحدث أنظمة بطاقات الرسومات من NVIDIA: • 1,233 TFLOPS لكل تدريب على بطاقة الرسوميات DeepSeek-V3-685B • 974 TFLOPS لكل تدريب على وحدة معالجة الرسوميات Qwen3-235B والإطار بالفعل يتوسع عبر آلاف وحدات معالجة الرسومات في مجموعات الإنتاج. القصة الأكبر هنا ليست فقط التدريب الأسرع. إنه اتجاه هندسة الذكاء الاصطناعي. النماذج الكثيفة تتوسع بشكل خطي مع الحوسبة. نماذج وزارة الطاقة تتوسع تقريبا بشكل أسي مع المعلمات مع الحفاظ على سهولة الحوسبة. هكذا تحصل على: نماذج 100B → 1T → 10T. نفس الميزانية الحسابية. فقط توجيه ذكي. إذا انفجرت الموجة القادمة من نماذج الحدود مرة أخرى في الحجم، تشرح هذه الورقة بالضبط كيف سيتم تدريبها. ورقة: تدريب قابل للتوسع لنماذج مزيج من الخبراء باستخدام نواة ميجاترون

الأفضل

المُتصدِّرة

التطبيقات المفضلة