Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨 NVIDIA julkaisi juuri suunnitelman biljoonaparametristen tekoälymallien kouluttamiseen.
Ja se selittää hiljaisesti, kuinka seuraavan sukupolven mallit skaalaavat paljon tämän päivän LLM-malleja pidemmälle.
Artikkelissa esitellään järjestelmä asiantuntijoiden sekoitusmallien (MoE) kouluttamiseen käyttäen Megatron Corea, samaa infrastruktuuriperhettä, jota käytetään joidenkin maailman suurimpien mallien kouluttamiseen.
MoE:n keskeinen idea on yksinkertainen mutta voimakas:
Sen sijaan, että koko malli aktivoitaisiin jokaiselle tokenille, järjestelmä ohjaa jokaisen tokenin vain muutamalle erikoistuneelle "asiantuntijalle".
Se tarkoittaa, että kokonaisparametreja voi skaalata valtavasti ilman, että laskentatehoa tarvitsee kasvattaa jokaiselle tokenille.
Teoriassa tämä antaa sinulle:
• Biljoonan parametrin kapasiteetti
• Tiheämallitason laskenta per token
• Massiiviset tehokkuusparannukset
Mutta käytännössä se rikkoo kaiken.
MoE-mallien kouluttaminen luo painajaisen kolmella järjestelmätasolla:
Muisto. Viestintä. Laskenta.
Optimoit yhden ja rajoitat muut pullonkaulaan.
NVIDIA:n ratkaisu on käytännössä koko koulutusputken täyden pinon yhteissuunnittelu.
He toivat käyttöön useita järjestelmätason optimointeja:
...

Johtavat
Rankkaus
Suosikit
