Reddit9 мая 2026 г.

80 ток/сек и 128K контекста на 12 ГБ видеопамяти с Qwen3.6 35B A3B и llama.cpp MTP

Пользователь поделился конфигурацией для запуска модели Qwen3.6 35B A3B на видеокарте RTX 4070 Super с 12 ГБ памяти. С использованием llama.cpp и функции MTP удалось достичь 80 токенов в секунду и контекста 128K. В материале приведены команды запуска и ссылки на необходимые GGUF-модели.

score 100r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1t82zxv/80_toksec_and_128k_context_on_12gb_vram_with/