Назад к дайджесту
Reddit

Поддержка MTP в llama.cpp перешла в бета-версию

Библиотека llama.cpp выпустила бета-версию поддержки многозадачного предсказания токенов (MTP). Изначально реализована для моделей Qwen3.5, но планируется расширение на другие архитектуры. Это обещает сократить разрыв в скорости генерации с vLLM благодаря развитию параллельной обработки тензоров.

score 100r/LocalLLaMA