Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
🚨 NVIDIA baru saja menjatuhkan cetak biru untuk melatih model AI triliunan parameter.
Dan itu diam-diam menjelaskan bagaimana model generasi berikutnya akan berskala jauh melampaui LLM saat ini.
Makalah ini memperkenalkan sistem untuk melatih model Mixture-of-Experts (MoE) menggunakan Megatron Core, keluarga infrastruktur yang sama yang digunakan untuk melatih beberapa model terbesar di dunia.
Ide utama di balik MoE sederhana tetapi kuat:
Alih-alih mengaktifkan seluruh model untuk setiap token, sistem merutekan setiap token hanya ke beberapa "ahli" khusus.
Itu berarti Anda dapat menskalakan parameter total secara besar-besaran tanpa meningkatkan komputasi untuk setiap token.
Secara teori ini memberi Anda:
• Kapasitas triliunan parameter
• Komputasi tingkat model padat per token
• Peningkatan efisiensi besar-besaran
Tapi dalam praktiknya, itu merusak segalanya.
Melatih model MoE menciptakan mimpi buruk di tiga lapisan sistem:
Memori. Komunikasi. Perhitungan.
Optimalkan satu dan Anda menghambat yang lain.
Solusi NVIDIA pada dasarnya adalah desain bersama full-stack dari seluruh pipeline pelatihan.
Mereka memperkenalkan beberapa pengoptimalan tingkat sistem:
...

Teratas
Peringkat
Favorit
