Introducendo RadixMLP: deduplicazione dei prefissi intra-batch per un prefill da 1,4 a 5 volte più veloce. I token con prefissi identici (come i prompt di sistema o le query condivise) producono attivazioni identiche. @feilsystem ha sviluppato RadixMLP per eliminare questa ridondanza, poi l'ha reso open source e l'ha aggiunto a TEI e BEI.