Назад к дайджесту
Reddit

Ускорение инференса Qwen 3.6 27B в 2.5 раза с MTP: локальный кодинг, 262k контекста и API-совместимость

В llama.cpp добавлена поддержка MTP для Qwen 3.6 27B, что позволяет ускорить инференс в 2.5 раза за счёт спекулятивного декодирования. Автор опубликовал конвертированные GGUF-модели с исправленными шаблонами чата, поддерживающие 262k контекста и совместимость с API OpenAI/Anthropic. Решение делает запуск локальных агентов для кодинга более производительным даже на ограниченном оборудовании.

score 100r/LocalLLaMA