Назад к дайджесту
Reddit

MTP: всё решается процентом принятия токенов

Автор протестировал технологию Multi-Token Prediction (MTP) на модели Gemma 4 в локальной среде. Результаты показали, что для генерации кода ускорение составляет 1.5 раза, но для вывода JSON скорость падает вдвое из-за низкого процента принятия токенов. Вывод: метод эффективен только при уровне принятия выше 50%, иначе накладные расходы перевешивают выгоду.

score 35r/LocalLLaMA