Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
🚨 NVIDIA, trilyon parametreli yapay zeka modellerini eğitmek için bir plan çıkardı.
Ve sessizce bir sonraki nesil modellerin bugünün LLM'lerinin çok ötesine ölçekleneceğini açıklıyor.
Makale, dünyanın en büyük modellerinden bazılarını eğitmek için kullanılan aynı altyapı ailesi olan Megatron Core kullanılarak Uzmanlar Karışıklığı (MoE) modellerini eğitmek için bir sistem tanıtmaktadır.
MoE'nin temel fikri basit ama güçlüdür:
Her token için tüm modeli etkinleştirmek yerine, sistem her tokenı sadece birkaç uzman "uzmana" yönlendirir.
Bu, her token için hesaplamayı artırmadan toplam parametreleri büyük ölçeklendirme yapabileceğiniz anlamına gelir.
Teoride bu size şunları verir:
• Trilyon parametre kapasite
• Jeton başına yoğun model seviyesinde hesaplama
• Büyük verimlilik artışları
Ama pratikte her şeyi bozar.
MoE modellerinin eğitilmesi, üç sistem katmanında bir kabus yaratır:
Hafıza. İletişim. Hesaplama.
Birini optimize ederseniz, diğerlerini darboğaz gibi engellersiniz.
NVIDIA'nın çözümü esasen tüm eğitim boru hattının tam yığın ortak tasarımıdır.
Birden fazla sistem düzeyinde optimizasyon sundular:
...

En İyiler
Sıralama
Takip Listesi
