Назад к дайджесту
Reddit

Если возможно, выбирайте более крупное квантование

Автор советует не экономить на размере квантования при запуске локальных LLM, даже если модель полностью помещается в VRAM. На примере Qwen 3.6 показано, что переход с IQ4_XS на IQ4_NL_XL через Unsloth значительно улучшает качество генерации и снижает ошибки в агентных задачах. Главный вывод: реальное время выполнения задачи важнее, чем метрика токенов в секунду.

score 23r/LocalLLaMA