Reddit
Квантование KV-кэша: невежество или злой умысел?
Автор тестирует Qwen-3.6 27B FP8 в vLLM для агентных задач с длинным контекстом. Замечает, что квантование KV-кэша ниже 16 бит (например, до q8) приводит к ошибкам в рассуждениях и вызовах инструментов. Ставит под сомнение целесообразность таких оптимизаций для серьёзных приложений.
score 33r/LocalLLaMA