Introduktion av RadixMLP: intra-batchprefixdeduplicering för 1,4–5 gånger snabbare prefill.
Tokens med identiska prefix (som systempromptar eller delade frågor) ger identiska aktiveringar. @feilsystem utvecklade RadixMLP för att eliminera denna redundans, öppnade sedan den och lade till den i TEI och BEI.
Generationella AI-företag drivs av Baseten.
Varför? Vi är besatta av millisekunderna, så att de kan skeppa framtiden.
Fokusera på det som faktiskt skiljer dig åt. Låt oss ta oss av slutsatsen.