DApp Store | Web3 Hub tapahtumille ja peleille

Trendaavat aiheet

🚨 NVIDIA julkaisi juuri suunnitelman biljoonaparametristen tekoälymallien kouluttamiseen. Ja se selittää hiljaisesti, kuinka seuraavan sukupolven mallit skaalaavat paljon tämän päivän LLM-malleja pidemmälle. Artikkelissa esitellään järjestelmä asiantuntijoiden sekoitusmallien (MoE) kouluttamiseen käyttäen Megatron Corea, samaa infrastruktuuriperhettä, jota käytetään joidenkin maailman suurimpien mallien kouluttamiseen. MoE:n keskeinen idea on yksinkertainen mutta voimakas: Sen sijaan, että koko malli aktivoitaisiin jokaiselle tokenille, järjestelmä ohjaa jokaisen tokenin vain muutamalle erikoistuneelle "asiantuntijalle". Se tarkoittaa, että kokonaisparametreja voi skaalata valtavasti ilman, että laskentatehoa tarvitsee kasvattaa jokaiselle tokenille. Teoriassa tämä antaa sinulle: • Biljoonan parametrin kapasiteetti • Tiheämallitason laskenta per token • Massiiviset tehokkuusparannukset Mutta käytännössä se rikkoo kaiken. MoE-mallien kouluttaminen luo painajaisen kolmella järjestelmätasolla: Muisto. Viestintä. Laskenta. Optimoit yhden ja rajoitat muut pullonkaulaan. NVIDIA:n ratkaisu on käytännössä koko koulutusputken täyden pinon yhteissuunnittelu. He toivat käyttöön useita järjestelmätason optimointeja: ...

Johtavat

Rankkaus

Suosikit