Reddit15 мая 2026 г.

Нужен второй взгляд: кастомная квантовка Qwen3.6 27B думает меньше и выдаёт правильные ответы

Автор делится опытом кастомного квантования модели Qwen3.6 27B, сравнивая INT8 Autoround с другими форматами (Q8_0, Q8 K XL). Модель демонстрирует меньшее количество токенов на размышления при сохранении качества ответов. Обсуждаются технические детали: GGUF, llama-cpp, vLLM и влияние размера квантовки на производительность.

score 59r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1tdhcqb/need_a_second_pair_of_eyes_this_qwen36_27b_quant/