GitHub22 апреля 2026 г.

TurboQuant: первое открытое сжатие KV-кэша для LLM

Первая открытая реализация TurboQuant для сжатия KV-кэша при инференсе больших языковых моделей. Библиотека совместима с HuggingFace и устанавливается через pip. Решение позволяет оптимизировать использование памяти и ускорить работу LLM.

316 forksPythonscore 77.7

machine-learninghuggingfacegpukv-cachequantizationcompressioninferencetransformersturboquantllm

back2matching/turboquanthttps://github.com/back2matching/turboquant