Reddit5 мая 2026 г.

FastDMS: Сжатие KV-кэша в 6.4 раза и скорость выше, чем у vLLM BF16/FP8

Представлен FastDMS — оптимизированная реализация метода Dynamic Memory Sparsification (DMS) для сжатия KV-кэша в больших языковых моделях. Инструмент обеспечивает 5–8-кратное снижение использования памяти и ускорение декодирования в 1.5–2 раза по сравнению с vLLM на моделях Llama 3.2 и Qwen 3.

score 60r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1t3vlrx/fastdms_64x_kvcache_compression_running_faster/