Introduksjon av RadixMLP: intra-batch prefiksdeduplisering for 1,4–5 ganger raskere prefill.
Tokens med identiske prefikser (som systemprompter eller delte spørringer) gir identiske aktiveringer. @feilsystem utviklet RadixMLP for å eliminere denne redundansen, åpnet det deretter og la det til i TEI og BEI.
Generasjonelle AI-selskaper drives av Baseten.
Hvorfor? Vi er besatt av millisekundene, så de kan sende fremtiden.
Fokuser på det som faktisk skiller deg ut. La slutningen være opp til oss.