Reddit
Поддержка MTP в llama.cpp: PR #22673 от am17an
В популярную библиотеку llama.cpp добавлена поддержка Multi-Token Prediction (MTP) для ускорения генерации текста. В комплекте с обновлением представлены модели Qwen в формате GGUF, оптимизированные под эту технологию. Это значимое улучшение для локального запуска LLM с применением спекулятивного декодирования.
score 60r/LocalLLaMA