Reddit22 апреля 2026 г.

Если возможно, выбирайте более крупное квантование

Автор советует не экономить на размере квантования при запуске локальных LLM, даже если модель полностью помещается в VRAM. На примере Qwen 3.6 показано, что переход с IQ4_XS на IQ4_NL_XL через Unsloth значительно улучшает качество генерации и снижает ошибки в агентных задачах. Главный вывод: реальное время выполнения задачи важнее, чем метрика токенов в секунду.

score 23r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1ssgwcz/consider_running_a_bigger_quant_if_possible/