Назад к дайджесту
Reddit

FastDMS: Сжатие KV-кэша в 6.4 раза и скорость выше, чем у vLLM BF16/FP8

Представлен FastDMS — оптимизированная реализация метода Dynamic Memory Sparsification (DMS) для сжатия KV-кэша в больших языковых моделях. Инструмент обеспечивает 5–8-кратное снижение использования памяти и ускорение декодирования в 1.5–2 раза по сравнению с vLLM на моделях Llama 3.2 и Qwen 3.

score 60r/LocalLLaMA