Reddit7 мая 2026 г.

Запуск Qwen3.5/3.6 с NextN MTP speculative decode в llama.cpp: руководство для RTX 3090 Ti

Автор делится инструкцией по ускорению инференса моделей Qwen3.5/3.6 с помощью NextN MTP speculative decode в llama.cpp. Метод обеспечивает прирост скорости декодирования до 2.9 раз без потери качества, но требует сборки кастомного форка с поддержкой MTP. На примере RTX 3090 Ti демонстрируется высокая производительность для MoE-архитектур.

score 41r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1t65vl8/running_qwen35_qwen36_with_nextn_mtp_multitoken/