Reddit
Тесты квантования KV-кэша Qwen3.6-27B: Turbo3/4 против F16, Q8 и Q4
Автор протестировал влияние квантования KV-кэша на модель Qwen3.6-27B с помощью llama-perplexity. Выяснилось, что плотные модели свыше 20B параметров устойчивы к сжатию кэша, тогда как более крупные версии могут работать нестабильно. Тест подтвердил эффективность Turbo3 для 27B-версии при работе с контекстом 200k.
score 22r/LocalLLaMA