Назад к дайджесту
Reddit

Qwen3.6-27B IQ4_XS: Оптимизация VRAM и 110k контекста

Автор обнаружил регрессию в llama.cpp, увеличившую потребление VRAM модели Qwen3.6-27B с 14.7 до 15.1 ГБ, что критично для карт с 16 ГБ памяти. Путем отката проблемного коммита и повторного квантования удалось вернуть исходный размер без потери качества. Предоставлен кастомный GGUF-файл для комфортной работы с длинным контекстом.

score 73r/LocalLLaMA