Назад к дайджесту
Reddit

Запуск Qwen3.6-27B на 16 ГБ VRAM с контекстом 100k токенов

Автор протестировал запуск модели Qwen3.6-27B на GPU A5000 (16 ГБ VRAM) с использованием квантования IQ4_XS в формате GGUF. В материале сравниваются форки llama.cpp для turboquant и приводятся команды сборки и настройки для работы с контекстом 100 000 токенов. Также опубликована ссылка на готовый чекпоинт и конфигурация для интеграции с OpenCode.

score 26r/LocalLLaMA