Reddit6 мая 2026 г.

Google выпустила Gemma 4 MTP для ускорения генерации текста

Google представила специализированные модели-черновики (draft models) для архитектуры Gemma 4, использующие метод Multi-Token Prediction. Эти модели позволяют применять спекулятивное декодирование, ускоряя процесс генерации до 2 раз при сохранении качества вывода. Чекпоинты доступны на Hugging Face и оптимизированы для low-latency и on-device приложений.

score 100r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1t4jq6h/gemma_4_mtp_released/