Назад к дайджесту
Reddit

Квантование KV-кэша: невежество или злой умысел?

Автор тестирует Qwen-3.6 27B FP8 в vLLM для агентных задач с длинным контекстом. Замечает, что квантование KV-кэша ниже 16 бит (например, до q8) приводит к ошибкам в рассуждениях и вызовах инструментов. Ставит под сомнение целесообразность таких оптимизаций для серьёзных приложений.

score 33r/LocalLLaMA