Reddit
Запуск Qwen3.6 35B a3b на 8 ГБ VRAM и 32 ГБ RAM с контекстом ~190k
Пользователь делится конфигурацией для запуска модели Qwen3.6 35B A3B на ноутбуке с RTX 4060, обеспечивая поддержку контекста до 190k токенов. Описана настройка llama.cpp с использованием форка TurboQuant для достижения скорости генерации 37–51 токен/сек. Приведены конкретные параметры запуска и ссылки на квантованные GGUF-модели.
score 93r/LocalLLaMA