GitHub
Проект Chronos от FonaTech
Проект Chronos от FonaTech оптимизирует инференс MoE-моделей, устраняя простои через предсказание с опережением и асинхронный DMA-предвыбор. Решение специально адаптировано для работы с SSD-накопителями и сочетает гибридный механизм MLA со скользящим окном внимания.
5017 forksPythonscore 87.1
large-language-modelstreaming-llmio-latency-hidinglookahead-routingmla-attentionasync-dmallmloraartificial-intelligencemixture-of-experts