Reddit9 мая 2026 г.

Multi-Token Prediction (MTP) для LLaMA.cpp — ускорение Gemma на 40%

В LLaMA.cpp реализована технология Multi-Token Prediction (MTP), обеспечивающая ускорение генерации на 40% для квантованных моделей Gemma. Тесты на MacBook Pro M5Max показали рост скорости с 97 до 138 токенов в секунду для модели Gemma 26B. Обновлённая версия библиотеки и модели доступны в репозиториях AtomicChat.

score 100r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1t6se6r/multitoken_prediction_mtp_for_llamacpp_gemma_4/