Reddit21 июня 2026 г.

Gemma 4 с QAT лучше переносит квантование KV-кэша

Исследование показывает, что модели Gemma 4 с обучением с учётом квантования (QAT) демонстрируют меньшую чувствительность к квантованию KV-кэша. Тесты на wikitext с контекстом 16k подтверждают эффективность метрики KL Divergence для оценки потери качества внимания. Это открывает возможности для использования квантования Q8_0 без существенного ущерба для производительности.

score 40r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1ubl0df/gemma_4_qat_seems_to_respond_significantly_better/