Назад к дайджесту
Reddit

Google TurboQuant для KV Cache в llama-server: уже доступно или ждём PR?

Пользователь обсуждает возможность применения техники сжатия Google TurboQuant к KV Cache в llama.cpp, отмечая успешные тесты на весах модели. Основной вопрос касается текущей поддержки квантования кэша контекста через CLI-флаги или необходимости официального PR от команды llama.cpp. Обсуждение фокусируется на оптимизации VRAM для локальных LLM на потребительских видеокартах.

score 24r/LocalLLaMA