Reddit
Запуск Qwen3.6-27B на 16 ГБ VRAM с контекстом 100k токенов
Автор протестировал запуск модели Qwen3.6-27B на GPU A5000 (16 ГБ VRAM) с использованием квантования IQ4_XS в формате GGUF. В материале сравниваются форки llama.cpp для turboquant и приводятся команды сборки и настройки для работы с контекстом 100 000 токенов. Также опубликована ссылка на готовый чекпоинт и конфигурация для интеграции с OpenCode.
score 26r/LocalLLaMA