Назад к дайджесту
Reddit

Спекулятивное декодирование Gemma-4-31B и Gemma-4-E2B обеспечивает скорость 120–200 токенов/сек для специфических задач

Пользователь демонстрирует локальный запуск модели Gemma-4-31B на видеокарте RTX 5090 с применением спекулятивного декодирования через связку с моделью-черновиком Gemma-4-E2B. Техника позволяет достичь скорости генерации 130–200 токенов в секунду, превосходя по качеству и скорости облачные аналоги Gemini для задач на литовском языке и структурированного вывода. Автор рекомендует этот подход для отказа от API-провайдеров в пользу локального инференса при выполнении легких рабочих процессов.

score 23r/LocalLLaMA