Назад к дайджесту
Reddit

INT8 в эпоху MXFP8: сравнение качества и скорости квантования

Автор сравнивает различные методы квантования (INT8, MXFP8, GGUF) для нейросетей, тестируя их качество и скорость на RTX3090 через ComfyUI. Исследование оценивает метрики SNR, косинусного сходства и RMSE относительно базовой модели BF16. Вывод: GGUF Q8 показывает лучшее качество, за ним следуют INT8 ConvRot и MXFP8.

score 22r/StableDiffusion