Назад к дайджесту
Reddit

Нужен второй взгляд: кастомная квантовка Qwen3.6 27B думает меньше и выдаёт правильные ответы

Автор делится опытом кастомного квантования модели Qwen3.6 27B, сравнивая INT8 Autoround с другими форматами (Q8_0, Q8 K XL). Модель демонстрирует меньшее количество токенов на размышления при сохранении качества ответов. Обсуждаются технические детали: GGUF, llama-cpp, vLLM и влияние размера квантовки на производительность.

score 59r/LocalLLaMA