Reddit28 апреля 2026 г.

Qwen3.6-27B IQ4_XS: Оптимизация VRAM и 110k контекста

Автор обнаружил регрессию в llama.cpp, увеличившую потребление VRAM модели Qwen3.6-27B с 14.7 до 15.1 ГБ, что критично для карт с 16 ГБ памяти. Путем отката проблемного коммита и повторного квантования удалось вернуть исходный размер без потери качества. Предоставлен кастомный GGUF-файл для комфортной работы с длинным контекстом.

score 73r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1sy0qj5/qwen3627b_iq4_xs_full_vram_with_110k_context/