Reddit6 мая 2026 г.

Ускорение инференса Qwen 3.6 27B в 2.5 раза с MTP: локальный кодинг, 262k контекста и API-совместимость

В llama.cpp добавлена поддержка MTP для Qwen 3.6 27B, что позволяет ускорить инференс в 2.5 раза за счёт спекулятивного декодирования. Автор опубликовал конвертированные GGUF-модели с исправленными шаблонами чата, поддерживающие 262k контекста и совместимость с API OpenAI/Anthropic. Решение делает запуск локальных агентов для кодинга более производительным даже на ограниченном оборудовании.

score 100r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1t57xuu/25x_faster_inference_with_qwen_36_27b_using_mtp/