Reddit22 апреля 2026 г.

Google TurboQuant для KV Cache в llama-server: уже доступно или ждём PR?

Пользователь обсуждает возможность применения техники сжатия Google TurboQuant к KV Cache в llama.cpp, отмечая успешные тесты на весах модели. Основной вопрос касается текущей поддержки квантования кэша контекста через CLI-флаги или необходимости официального PR от команды llama.cpp. Обсуждение фокусируется на оптимизации VRAM для локальных LLM на потребительских видеокартах.

score 24r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1sshpmh/can_we_already_use_googles_turboquant_tq_for_kv/