Reddit
Gemma 4 26B выдает 600 токенов в секунду на одной RTX 5090
Автор протестировал эффективность DFlash speculative decoding в vLLM на модели Gemma 4 26B с использованием видеокарты RTX 5090. Настройка 13 спекулятивных токенов позволила увеличить скорость генерации с 228 до 578 токенов в секунду, сократив среднюю задержку в 2.5 раза. Приведены детальные рекомендации по параметрам max_num_batched_tokens для оптимизации хвоста распределения задержек.
score 88r/LocalLLaMA