Назад к дайджесту
Reddit

Qwen3.6-35B: анализ метрик KLD для квантования INT и NVFP

Автор исследует метрику KLD (дивергенция Кульбака-Лейблера) для оценки качества квантования модели Qwen3.6-35B, сравнивая форматы INT и NVFP с использованием реальных логитов в VLLM. Обсуждаются компромиссы между точностью и скоростью для INT8, FP8 и NVFP4, а также влияние разрядности активаций на итоговое качество. Подчеркивается, что выбор формата зависит от конкретного use-case, а не только от метрик.

score 19r/LocalLLaMA