Reddit
Qwen3.6-27B IQ4_XS: Оптимизация VRAM и 110k контекста
Автор обнаружил регрессию в llama.cpp, увеличившую потребление VRAM модели Qwen3.6-27B с 14.7 до 15.1 ГБ, что критично для карт с 16 ГБ памяти. Путем отката проблемного коммита и повторного квантования удалось вернуть исходный размер без потери качества. Предоставлен кастомный GGUF-файл для комфортной работы с длинным контекстом.
score 73r/LocalLLaMA