Reddit
Google выпустила Gemma 4 MTP для ускорения генерации текста
Google представила специализированные модели-черновики (draft models) для архитектуры Gemma 4, использующие метод Multi-Token Prediction. Эти модели позволяют применять спекулятивное декодирование, ускоряя процесс генерации до 2 раз при сохранении качества вывода. Чекпоинты доступны на Hugging Face и оптимизированы для low-latency и on-device приложений.
score 100r/LocalLLaMA