Reddit26 апреля 2026 г.

Спекулятивное декодирование Gemma-4-31B и Gemma-4-E2B обеспечивает скорость 120–200 токенов/сек для специфических задач

Пользователь демонстрирует локальный запуск модели Gemma-4-31B на видеокарте RTX 5090 с применением спекулятивного декодирования через связку с моделью-черновиком Gemma-4-E2B. Техника позволяет достичь скорости генерации 130–200 токенов в секунду, превосходя по качеству и скорости облачные аналоги Gemini для задач на литовском языке и структурированного вывода. Автор рекомендует этот подход для отказа от API-провайдеров в пользу локального инференса при выполнении легких рабочих процессов.

score 23r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1sw782p/speculative_decoding_with_gemma431b_gemma4e2b/