Reddit
Qwen3.6 35B MoE на 8GB VRAM: конфигурация llama-server и ловушка с лимитом токенов
Пользователь делится успешным запуском Qwen3.6-35B-A3B на RTX 4060 (8GB VRAM) через llama-server, используя гибридное распределение MoE-слоёв между GPU и CPU. Особое внимание уделено настройке режима мышления (reasoning), где неограниченный бюджет потреблял лимит токенов, и предложено решение через явные параметры бюджета. Материал актуален для разработчиков, оптимизирующих локальный инференс больших языковых моделей.
score 21r/LocalLLaMA