Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨 NVIDIA právě vydala plán na trénování AI modelů s biliony parametrů.
A tiše vysvětluje, jak se příští generace modelů rozšíří daleko za dnešní LLM.
Článek představuje systém pro trénink modelů Mixture-of-Experts (MoE) využívající Megatron Core, stejnou rodinu infrastruktury, která se používá k trénování některých z největších modelů na světě.
Klíčová myšlenka MoE je jednoduchá, ale silná:
Místo aktivace celého modelu pro každý token systém směruje každý token jen několika specializovaným "expertům".
To znamená, že můžete masivně škálovat celkové parametry, aniž byste zvyšovali výpočetní náklady pro každý token.
Teoreticky to dává:
• Kapacita v bilionových parametrech
• Výpočet na úrovni hustého modelu na token
• Obrovské zvýšení efektivity
Ale v praxi to všechno rozbije.
Trénování MoE modelů vytváří noční můru napříč třemi vrstvami systémů:
Paměť. Komunikace. Výpočty.
Optimalizujte jednu a ostatní zúžíte v úzkém místě.
Řešení NVIDIA je v podstatě full-stack spolunávrh celého tréninkového procesu.
Zavedli několik optimalizací na úrovni systému:
...

Top
Hodnocení
Oblíbené
