Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Artificial Analysis
Niezależna analiza modeli AI i dostawców usług hostingowych - wybierz najlepszego dostawcę modelu i API dla swojego przypadku użycia
NVIDIA wydało model Nemotron 3 Super, model rozumowania o otwartych wagach z 120B (12B aktywnych), który uzyskał wynik 36 w Indeksie Sztucznej Analizy Inteligencji z hybrydową architekturą Mamba-Transformer MoE.
Mieliśmy dostęp do tego modelu przed premierą i oceniliśmy go pod kątem inteligencji, otwartości i efektywności wnioskowania.
Kluczowe wnioski
➤ Łączy wysoką otwartość z silną inteligencją: Nemotron 3 Super osiąga dobre wyniki jak na swój rozmiar i jest znacznie bardziej inteligentny niż jakikolwiek inny model o porównywalnej otwartości.
➤ Nemotron 3 Super uzyskał wynik 36 w Indeksie Sztucznej Analizy Inteligencji, o 17 punktów wyżej niż poprzednia wersja Super i o 12 punktów wyżej niż Nemotron 3 Nano. W porównaniu do modeli w podobnej kategorii rozmiarowej, plasuje się przed gpt-oss-120b (33), ale za niedawno wydanym Qwen3.5 122B A10B (42).
➤ Skoncentrowany na efektywnej inteligencji: stwierdziliśmy, że Nemotron 3 Super ma wyższą inteligencję niż gpt-oss-120b, jednocześnie umożliwiając ~10% wyższą przepustowość na GPU w prostym, ale realistycznym teście obciążeniowym.
➤ Wsparcie dla szybkiego wnioskowania bezserwerowego: dostawcy, w tym @DeepInfra i @LightningAI, oferują ten model od momentu premiery z prędkościami do 484 tokenów na sekundę.
Szczegóły modelu
📝 Nemotron 3 Super ma 120,6B całkowitych i 12,7B aktywnych parametrów, a także okno kontekstowe o długości 1 miliona tokenów i wsparcie dla hybrydowego rozumowania. Jest publikowany z otwartymi wagami i liberalną licencją, obok otwartych danych treningowych i ujawnienia metodologii.
📐 Model ma kilka cech projektowych umożliwiających efektywne wnioskowanie, w tym wykorzystanie hybrydowych architektur Mamba-Transformer i LatentMoE, prognozowanie wielotokenowe oraz zquantyzowane wagi NVFP4.
🎯 NVIDIA wstępnie wytrenowało Nemotron 3 Super w (głównie) precyzji NVFP4, ale przeszło na BF16 po treningu. Nasze oceny wykorzystują wagi BF16.
🧠 Przeprowadziliśmy benchmark Nemotron 3 Super w jego trybie rozumowania o najwyższym wysiłku ("regular"), najbardziej zdolnym z trzech trybów wnioskowania modelu (rozumowanie wyłączone, niski wysiłek i regularny).

6,39K
Alibaba wydał 4 nowe modele Qwen3.5 od 0.8B do 9B. Model 9B (Rozumowanie, 32 w Indeksie Inteligencji) jest najbardziej inteligentnym modelem poniżej 10B parametrów, a 4B (Rozumowanie, 27) jest najbardziej inteligentnym modelem poniżej 5B, ale oba używają ponad 200M tokenów wyjściowych do uruchomienia Indeksu Inteligencji
@Alibaba_Qwen rozszerzył rodzinę Qwen3.5 o cztery mniejsze gęste modele: 9B (Rozumowanie, 32 w Indeksie Inteligencji), 4B (Rozumowanie, 27), 2B (Rozumowanie, 16) i 0.8B (Rozumowanie, 9). Te modele uzupełniają większe modele 397B, 27B, 122B A10B i 35B A3B, które zostały wydane wcześniej w tym miesiącu. Wszystkie modele są licencjonowane na podstawie Apache 2.0, wspierają 262K kontekst, zawierają natywne wsparcie wizji i używają tego samego zjednoczonego podejścia hybrydowego myślenia/niedomyślenia jak reszta rodziny Qwen3.5
Kluczowe wyniki benchmarków dla wariantów rozumowania:
➤ Modele 9B i 4B są najbardziej inteligentnymi modelami w swoich klasach rozmiarowych, wyprzedzając wszystkie inne modele poniżej 10B parametrów. Qwen3.5 9B (32) zdobywa mniej więcej podwójnie więcej punktów niż najbliższe modele poniżej 10B: Falcon-H1R-7B (16) i NVIDIA Nemotron Nano 9B V2 (Rozumowanie, 15). Qwen3.5 4B (27) zdobywa więcej punktów niż wszystkie te modele, mimo że ma mniej więcej połowę parametrów. Wszystkie cztery małe modele Qwen3.5 znajdują się na granicy Pareto w wykresie Inteligencja vs. Całkowita liczba parametrów
➤ Generacja Qwen3.5 reprezentuje znaczący wzrost inteligencji w porównaniu do Qwen3 we wszystkich rozmiarach modeli poniżej 10B, z większymi zyskami przy wyższej całkowitej liczbie parametrów. Porównując warianty rozumowania: Qwen3.5 9B (32) jest o 15 punktów lepszy od Qwen3 VL 8B (17), 4B (27) zyskuje 9 punktów w porównaniu do Qwen3 4B 2507 (18), 2B (16) jest o 3 punkty lepszy od Qwen3 1.7B (szacowane 13), a 0.8B (9) zyskuje 2.5 punktu w porównaniu do Qwen3 0.6B (6.5).
➤ Wszystkie cztery modele używają 230-390M tokenów wyjściowych do uruchomienia Indeksu Inteligencji, co jest znacznie więcej niż oba większe rodzeństwa Qwen3.5 i poprzednicy Qwen3. Qwen3.5 2B użył ~390M tokenów wyjściowych, 4B użył ~240M, 0.8B użył ~230M, a 9B użył ~260M. Dla kontekstu, znacznie większy Qwen3.5 27B użył 98M, a flagowy 397B użył 86M. Te liczby tokenów przewyższają również większość modeli granicznych: Gemini 3.1 Pro Preview (57M), GPT-5.2 (xhigh, 130M) i GLM-5 Rozumowanie (109M)
➤ AA-Omniscience jest względną słabością, z wskaźnikami halucynacji wynoszącymi 80-82% dla 4B i 9B. Qwen3.5 4B zdobywa -57 w AA-Omniscience z wskaźnikiem halucynacji wynoszącym 80% i dokładnością 12.8%. Qwen3.5 9B zdobywa -56 z 82% halucynacji i 14.7% dokładności. To są marginalnie lepsze wyniki niż ich poprzednicy Qwen3 (Qwen3 4B 2507: -61, 84% halucynacji, 12.7% dokładności), przy czym poprawa wynika głównie z niższych wskaźników halucynacji, a nie wyższej dokładności.
➤ Modele Qwen3.5 poniżej 10B łączą wysoką inteligencję z natywną wizją w skali wcześniej niedostępnej. Na MMMU-Pro (rozumowanie multimodalne), Qwen3.5 9B zdobywa 69.2%, a 4B zdobywa 65.4%, wyprzedzając Qwen3 VL 8B (56.6%), Qwen3 VL 4B (52.0%) i Ministral 3 8B (46.0%). Qwen3.5 0.8B zdobywa 25.8%, co jest godne uwagi dla modelu poniżej 1B
Inne informacje:
➤ Okno kontekstowe: 262K tokenów
➤ Licencja: Apache 2.0
➤ Kwantyzacja: Natywne wagi to BF16. Alibaba nie wydał pierwszych kwantyzacji GPTQ-Int4 dla tych małych modeli, chociaż zrobił to dla większych modeli w rodzinie Qwen3.5 wydanych wcześniej (27B, 35B-A3B, 122B-A10B, 397B-A17B). W kwantyzacji 4-bitowej wszystkie cztery modele są dostępne na sprzęcie konsumenckim
➤ Dostępność: W momencie publikacji nie ma pierwszych ani trzecich stron serwerless API hostujących te modele.

9,86K
Najlepsze
Ranking
Ulubione
