Reddit2 мая 2026 г.

Квантование KV-кэша: невежество или злой умысел?

Автор тестирует Qwen-3.6 27B FP8 в vLLM для агентных задач с длинным контекстом. Замечает, что квантование KV-кэша ниже 16 бит (например, до q8) приводит к ошибкам в рассуждениях и вызовах инструментов. Ставит под сомнение целесообразность таких оптимизаций для серьёзных приложений.

score 33r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1t1t4nw/kv_cache_quantization_ignorance_or_malice/