Reddit
Запуск Qwen3.5/3.6 с NextN MTP speculative decode в llama.cpp: руководство для RTX 3090 Ti
Автор делится инструкцией по ускорению инференса моделей Qwen3.5/3.6 с помощью NextN MTP speculative decode в llama.cpp. Метод обеспечивает прирост скорости декодирования до 2.9 раз без потери качества, но требует сборки кастомного форка с поддержкой MTP. На примере RTX 3090 Ti демонстрируется высокая производительность для MoE-архитектур.
score 41r/LocalLLaMA