Reddit8 мая 2026 г.

Gemma 4 26B выдает 600 токенов в секунду на одной RTX 5090

Автор протестировал эффективность DFlash speculative decoding в vLLM на модели Gemma 4 26B с использованием видеокарты RTX 5090. Настройка 13 спекулятивных токенов позволила увеличить скорость генерации с 228 до 578 токенов в секунду, сократив среднюю задержку в 2.5 раза. Приведены детальные рекомендации по параметрам max_num_batched_tokens для оптимизации хвоста распределения задержек.

score 88r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1t796qe/gemma_4_26b_hits_600_toks_on_one_rtx_5090/