GitHub
TurboQuant: первое открытое сжатие KV-кэша для LLM
Первая открытая реализация TurboQuant для сжатия KV-кэша при инференсе больших языковых моделей. Библиотека совместима с HuggingFace и устанавливается через pip. Решение позволяет оптимизировать использование памяти и ускорить работу LLM.
316 forksPythonscore 77.7
machine-learninghuggingfacegpukv-cachequantizationcompressioninferencetransformersturboquantllm