Reddit
Gemma 4 и Qwen 3.6 с кэшем KV в квантованиях q8_0 и q4_0: результаты KL-дивергенции
Техническое исследование сравнивает поведение моделей Gemma 4 и Qwen 3.6 при использовании квантования q8_0 и q4_0 с оптимизацией ключ-значений кэша. Авторы анализируют метрику KL-дивергенции для оценки потерь качества при сжатии весов и ускорении инференса. Материал ориентирован на разработчиков, занимающихся локальным развертыванием и оптимизацией больших языковых моделей.
score 100r/LocalLLaMA