Reddit14 мая 2026 г.

Предсказание нескольких токенов (MTP) для Qwen в LLaMA.cpp + TurboQuant

Команда разработчиков реализовала оптимизацию Multi-Token Prediction (MTP) для модели Qwen в библиотеке LLaMA.cpp с использованием TurboQuant. Это позволило увеличить скорость генерации на 40% и достичь 34 токенов в секунду на MacBook Pro. Доступны патченая версия LLaMA.cpp и квантованные модели Qwen в формате GGUF.

score 69r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1tckzy2/multitoken_prediction_mtp_for_qwen_on_llamacpp/