Reddit
Поддержка MTP в llama.cpp перешла в бета-версию
Библиотека llama.cpp выпустила бета-версию поддержки многозадачного предсказания токенов (MTP). Изначально реализована для моделей Qwen3.5, но планируется расширение на другие архитектуры. Это обещает сократить разрыв в скорости генерации с vLLM благодаря развитию параллельной обработки тензоров.
score 100r/LocalLLaMA