Назад к дайджесту
Reddit

Qwen3-27B с Multi-Token Prediction: ускорение инференса в 2.5 раза на квантованных моделях Unsloth

Разработчик внедрил Multi-Token Prediction (MTP) в квантованные GGUF-модели Qwen3-27B, используя Unsloth UD XL и модифицированную версию llama.cpp. Это позволяет предсказывать 4 токена за проход, обеспечивая 2.5-кратный рост пропускной способности при минимальных затратах VRAM. Решение доступно для локального запуска, так как официальная поддержка MTP в llama.cpp пока находится в стадии PR.

score 100r/LocalLLaMA