Reddit
Если возможно, выбирайте более крупное квантование
Автор советует не экономить на размере квантования при запуске локальных LLM, даже если модель полностью помещается в VRAM. На примере Qwen 3.6 показано, что переход с IQ4_XS на IQ4_NL_XL через Unsloth значительно улучшает качество генерации и снижает ошибки в агентных задачах. Главный вывод: реальное время выполнения задачи важнее, чем метрика токенов в секунду.
score 23r/LocalLLaMA