Назад к дайджесту
Reddit

Qwen3.6 35B MoE на 8GB VRAM: конфигурация llama-server и ловушка с лимитом токенов

Пользователь делится успешным запуском Qwen3.6-35B-A3B на RTX 4060 (8GB VRAM) через llama-server, используя гибридное распределение MoE-слоёв между GPU и CPU. Особое внимание уделено настройке режима мышления (reasoning), где неограниченный бюджет потреблял лимит токенов, и предложено решение через явные параметры бюджета. Материал актуален для разработчиков, оптимизирующих локальный инференс больших языковых моделей.

score 21r/LocalLLaMA