DApp Mağazası | Etkinlikler ve Oyunlar için Web3 Merkezi

Trend Olan Konular

🚨 NVIDIA, trilyon parametreli yapay zeka modellerini eğitmek için bir plan çıkardı. Ve sessizce bir sonraki nesil modellerin bugünün LLM'lerinin çok ötesine ölçekleneceğini açıklıyor. Makale, dünyanın en büyük modellerinden bazılarını eğitmek için kullanılan aynı altyapı ailesi olan Megatron Core kullanılarak Uzmanlar Karışıklığı (MoE) modellerini eğitmek için bir sistem tanıtmaktadır. MoE'nin temel fikri basit ama güçlüdür: Her token için tüm modeli etkinleştirmek yerine, sistem her tokenı sadece birkaç uzman "uzmana" yönlendirir. Bu, her token için hesaplamayı artırmadan toplam parametreleri büyük ölçeklendirme yapabileceğiniz anlamına gelir. Teoride bu size şunları verir: • Trilyon parametre kapasite • Jeton başına yoğun model seviyesinde hesaplama • Büyük verimlilik artışları Ama pratikte her şeyi bozar. MoE modellerinin eğitilmesi, üç sistem katmanında bir kabus yaratır: Hafıza. İletişim. Hesaplama. Birini optimize ederseniz, diğerlerini darboğaz gibi engellersiniz. NVIDIA'nın çözümü esasen tüm eğitim boru hattının tam yığın ortak tasarımıdır. Birden fazla sistem düzeyinde optimizasyon sundular: ...

En İyiler

Sıralama

Takip Listesi