Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨 NVIDIA har nettopp sluppet en plan for trening av billion-parameter AI-modeller.
Og den forklarer stille hvordan neste generasjon modeller vil skalere langt utover dagens LLM-er.
Artikkelen introduserer et system for å trene Mixture-of-Experts (MoE)-modeller ved bruk av Megatron Core, den samme infrastrukturfamilien som brukes til å trene noen av verdens største modeller.
Hovedideen bak MoE er enkel, men kraftfull:
I stedet for å aktivere hele modellen for hver token, ruter systemet hver token til bare noen få spesialiserte «eksperter».
Det betyr at du kan skalere totale parametere massivt uten å øke beregningen for hver token.
I teorien gir dette deg:
• Billion-parameter kapasitet
• Beregning på tettmodellnivå per token
• Store effektivitetsgevinster
Men i praksis ødelegger det alt.
Trening av MoE-modeller skaper et mareritt på tvers av tre systemlag:
Minne. Kommunikasjon. Beregning.
Optimaliser du én, får du flaskehals på de andre.
NVIDIAs løsning er i bunn og grunn fullstack co-design av hele treningspipelinen.
De introduserte flere optimaliseringer på systemnivå:
...

Topp
Rangering
Favoritter
