DApp Store | Centrum Web3 pro události a hry

Populární témata

🚨 NVIDIA právě vydala plán na trénování AI modelů s biliony parametrů. A tiše vysvětluje, jak se příští generace modelů rozšíří daleko za dnešní LLM. Článek představuje systém pro trénink modelů Mixture-of-Experts (MoE) využívající Megatron Core, stejnou rodinu infrastruktury, která se používá k trénování některých z největších modelů na světě. Klíčová myšlenka MoE je jednoduchá, ale silná: Místo aktivace celého modelu pro každý token systém směruje každý token jen několika specializovaným "expertům". To znamená, že můžete masivně škálovat celkové parametry, aniž byste zvyšovali výpočetní náklady pro každý token. Teoreticky to dává: • Kapacita v bilionových parametrech • Výpočet na úrovni hustého modelu na token • Obrovské zvýšení efektivity Ale v praxi to všechno rozbije. Trénování MoE modelů vytváří noční můru napříč třemi vrstvami systémů: Paměť. Komunikace. Výpočty. Optimalizujte jednu a ostatní zúžíte v úzkém místě. Řešení NVIDIA je v podstatě full-stack spolunávrh celého tréninkového procesu. Zavedli několik optimalizací na úrovni systému: ...

Top

Hodnocení

Oblíbené