Reddit16 мая 2026 г.

Поддержка MTP в llama.cpp: PR #22673 от am17an

В популярную библиотеку llama.cpp добавлена поддержка Multi-Token Prediction (MTP) для ускорения генерации текста. В комплекте с обновлением представлены модели Qwen в формате GGUF, оптимизированные под эту технологию. Это значимое улучшение для локального запуска LLM с применением спекулятивного декодирования.

score 60r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1teryn8/llama_spec_mtp_support_by_am17an_pull_request/