Reddit
Qwen3.6-35B: анализ метрик KLD для квантования INT и NVFP
Автор исследует метрику KLD (дивергенция Кульбака-Лейблера) для оценки качества квантования модели Qwen3.6-35B, сравнивая форматы INT и NVFP с использованием реальных логитов в VLLM. Обсуждаются компромиссы между точностью и скоростью для INT8, FP8 и NVFP4, а также влияние разрядности активаций на итоговое качество. Подчеркивается, что выбор формата зависит от конкретного use-case, а не только от метрик.
score 19r/LocalLLaMA