Назад к дайджесту
Reddit

Запуск Qwen3.5/3.6 с NextN MTP speculative decode в llama.cpp: руководство для RTX 3090 Ti

Автор делится инструкцией по ускорению инференса моделей Qwen3.5/3.6 с помощью NextN MTP speculative decode в llama.cpp. Метод обеспечивает прирост скорости декодирования до 2.9 раз без потери качества, но требует сборки кастомного форка с поддержкой MTP. На примере RTX 3090 Ti демонстрируется высокая производительность для MoE-архитектур.

score 41r/LocalLLaMA