Назад к дайджесту
Reddit

Multi-Token Prediction (MTP) для LLaMA.cpp — ускорение Gemma на 40%

В LLaMA.cpp реализована технология Multi-Token Prediction (MTP), обеспечивающая ускорение генерации на 40% для квантованных моделей Gemma. Тесты на MacBook Pro M5Max показали рост скорости с 97 до 138 токенов в секунду для модели Gemma 26B. Обновлённая версия библиотеки и модели доступны в репозиториях AtomicChat.

score 100r/LocalLLaMA