Reddit
Gemma 4 с QAT лучше переносит квантование KV-кэша
Исследование показывает, что модели Gemma 4 с обучением с учётом квантования (QAT) демонстрируют меньшую чувствительность к квантованию KV-кэша. Тесты на wikitext с контекстом 16k подтверждают эффективность метрики KL Divergence для оценки потери качества внимания. Это открывает возможности для использования квантования Q8_0 без существенного ущерба для производительности.
score 40r/LocalLLaMA