Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

Artificial Analysis

Niezależna analiza modeli AI i dostawców usług hostingowych - wybierz najlepszego dostawcę modelu i API dla swojego przypadku użycia

Alibaba wydał 4 nowe modele Qwen3.5 od 0.8B do 9B. Model 9B (Rozumowanie, 32 w Indeksie Inteligencji) jest najbardziej inteligentnym modelem poniżej 10B parametrów, a 4B (Rozumowanie, 27) jest najbardziej inteligentnym modelem poniżej 5B, ale oba używają ponad 200M tokenów wyjściowych do uruchomienia Indeksu Inteligencji @Alibaba_Qwen rozszerzył rodzinę Qwen3.5 o cztery mniejsze gęste modele: 9B (Rozumowanie, 32 w Indeksie Inteligencji), 4B (Rozumowanie, 27), 2B (Rozumowanie, 16) i 0.8B (Rozumowanie, 9). Te modele uzupełniają większe modele 397B, 27B, 122B A10B i 35B A3B, które zostały wydane wcześniej w tym miesiącu. Wszystkie modele są licencjonowane na podstawie Apache 2.0, wspierają 262K kontekst, zawierają natywne wsparcie wizji i używają tego samego zjednoczonego podejścia hybrydowego myślenia/niedomyślenia jak reszta rodziny Qwen3.5 Kluczowe wyniki benchmarków dla wariantów rozumowania: ➤ Modele 9B i 4B są najbardziej inteligentnymi modelami w swoich klasach rozmiarowych, wyprzedzając wszystkie inne modele poniżej 10B parametrów. Qwen3.5 9B (32) zdobywa mniej więcej podwójnie więcej punktów niż najbliższe modele poniżej 10B: Falcon-H1R-7B (16) i NVIDIA Nemotron Nano 9B V2 (Rozumowanie, 15). Qwen3.5 4B (27) zdobywa więcej punktów niż wszystkie te modele, mimo że ma mniej więcej połowę parametrów. Wszystkie cztery małe modele Qwen3.5 znajdują się na granicy Pareto w wykresie Inteligencja vs. Całkowita liczba parametrów ➤ Generacja Qwen3.5 reprezentuje znaczący wzrost inteligencji w porównaniu do Qwen3 we wszystkich rozmiarach modeli poniżej 10B, z większymi zyskami przy wyższej całkowitej liczbie parametrów. Porównując warianty rozumowania: Qwen3.5 9B (32) jest o 15 punktów lepszy od Qwen3 VL 8B (17), 4B (27) zyskuje 9 punktów w porównaniu do Qwen3 4B 2507 (18), 2B (16) jest o 3 punkty lepszy od Qwen3 1.7B (szacowane 13), a 0.8B (9) zyskuje 2.5 punktu w porównaniu do Qwen3 0.6B (6.5). ➤ Wszystkie cztery modele używają 230-390M tokenów wyjściowych do uruchomienia Indeksu Inteligencji, co jest znacznie więcej niż oba większe rodzeństwa Qwen3.5 i poprzednicy Qwen3. Qwen3.5 2B użył ~390M tokenów wyjściowych, 4B użył ~240M, 0.8B użył ~230M, a 9B użył ~260M. Dla kontekstu, znacznie większy Qwen3.5 27B użył 98M, a flagowy 397B użył 86M. Te liczby tokenów przewyższają również większość modeli granicznych: Gemini 3.1 Pro Preview (57M), GPT-5.2 (xhigh, 130M) i GLM-5 Rozumowanie (109M) ➤ AA-Omniscience jest względną słabością, z wskaźnikami halucynacji wynoszącymi 80-82% dla 4B i 9B. Qwen3.5 4B zdobywa -57 w AA-Omniscience z wskaźnikiem halucynacji wynoszącym 80% i dokładnością 12.8%. Qwen3.5 9B zdobywa -56 z 82% halucynacji i 14.7% dokładności. To są marginalnie lepsze wyniki niż ich poprzednicy Qwen3 (Qwen3 4B 2507: -61, 84% halucynacji, 12.7% dokładności), przy czym poprawa wynika głównie z niższych wskaźników halucynacji, a nie wyższej dokładności. ➤ Modele Qwen3.5 poniżej 10B łączą wysoką inteligencję z natywną wizją w skali wcześniej niedostępnej. Na MMMU-Pro (rozumowanie multimodalne), Qwen3.5 9B zdobywa 69.2%, a 4B zdobywa 65.4%, wyprzedzając Qwen3 VL 8B (56.6%), Qwen3 VL 4B (52.0%) i Ministral 3 8B (46.0%). Qwen3.5 0.8B zdobywa 25.8%, co jest godne uwagi dla modelu poniżej 1B Inne informacje: ➤ Okno kontekstowe: 262K tokenów ➤ Licencja: Apache 2.0 ➤ Kwantyzacja: Natywne wagi to BF16. Alibaba nie wydał pierwszych kwantyzacji GPTQ-Int4 dla tych małych modeli, chociaż zrobił to dla większych modeli w rodzinie Qwen3.5 wydanych wcześniej (27B, 35B-A3B, 122B-A10B, 397B-A17B). W kwantyzacji 4-bitowej wszystkie cztery modele są dostępne na sprzęcie konsumenckim ➤ Dostępność: W momencie publikacji nie ma pierwszych ani trzecich stron serwerless API hostujących te modele.

Najlepsze

Ranking

Ulubione