Reddit7 мая 2026 г.

Qwen3-27B с Multi-Token Prediction: ускорение инференса в 2.5 раза на квантованных моделях Unsloth

Разработчик внедрил Multi-Token Prediction (MTP) в квантованные GGUF-модели Qwen3-27B, используя Unsloth UD XL и модифицированную версию llama.cpp. Это позволяет предсказывать 4 токена за проход, обеспечивая 2.5-кратный рост пропускной способности при минимальных затратах VRAM. Решение доступно для локального запуска, так как официальная поддержка MTP в llama.cpp пока находится в стадии PR.

score 100r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1t5ageq/qwen3627b_with_mtp_grafted_on_unsloth_ud_xl_25x/