Назад к дайджесту
Reddit

Google выпустила Gemma 4 MTP для ускорения генерации текста

Google представила специализированные модели-черновики (draft models) для архитектуры Gemma 4, использующие метод Multi-Token Prediction. Эти модели позволяют применять спекулятивное декодирование, ускоряя процесс генерации до 2 раз при сохранении качества вывода. Чекпоинты доступны на Hugging Face и оптимизированы для low-latency и on-device приложений.

score 100r/LocalLLaMA