Представляем RadixMLP: дедупликация префиксов внутри пакета для ускорения предзаполнения в 1.4–5 раз.
Токены с идентичными префиксами (такими как системные подсказки или общие запросы) производят идентичные активации. @feilsystem разработал RadixMLP, чтобы устранить эту избыточность, затем опубликовал его с открытым исходным кодом и добавил в TEI и BEI.
Компании по разработке генеративного ИИ работают на платформе Baseten.
Почему? Мы уделяем внимание миллисекундам, чтобы они могли создавать будущее.
Сосредоточьтесь на том, что действительно отличает вас. Оставьте выводы нам.