Загрузка...

Назад к дайджесту

Reddit25 апреля 2026 г.

Gemma 4 и Qwen 3.6 с кэшем KV в квантованиях q8_0 и q4_0: результаты KL-дивергенции

Техническое исследование сравнивает поведение моделей Gemma 4 и Qwen 3.6 при использовании квантования q8_0 и q4_0 с оптимизацией ключ-значений кэша. Авторы анализируют метрику KL-дивергенции для оценки потерь качества при сжатии весов и ускорении инференса. Материал ориентирован на разработчиков, занимающихся локальным развертыванием и оптимизацией больших языковых моделей.

score 100r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1suh3sz/gemma_4_and_qwen_36_with_q8_0_and_q4_0_kv_cache/