Reddit11 мая 2026 г.

Запуск Qwen3.6 35B a3b на 8 ГБ VRAM и 32 ГБ RAM с контекстом ~190k

Пользователь делится конфигурацией для запуска модели Qwen3.6 35B A3B на ноутбуке с RTX 4060, обеспечивая поддержку контекста до 190k токенов. Описана настройка llama.cpp с использованием форка TurboQuant для достижения скорости генерации 37–51 токен/сек. Приведены конкретные параметры запуска и ссылки на квантованные GGUF-модели.

score 93r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1t9eo83/running_qwen36_35b_a3b_on_8gb_vram_and_32gb_ram/