Reddit21 апреля 2026 г.

Qwen3.6 35B MoE на 8GB VRAM: конфигурация llama-server и ловушка с лимитом токенов

Пользователь делится успешным запуском Qwen3.6-35B-A3B на RTX 4060 (8GB VRAM) через llama-server, используя гибридное распределение MoE-слоёв между GPU и CPU. Особое внимание уделено настройке режима мышления (reasoning), где неограниченный бюджет потреблял лимит токенов, и предложено решение через явные параметры бюджета. Материал актуален для разработчиков, оптимизирующих локальный инференс больших языковых моделей.

score 21r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1srijdf/qwen36_35b_moe_on_8gb_vram_working_llamaserver/