Reddit
Бенчмарк Qwen 3.6 и Gemma 4 на H100: скорость, задержки и влияние FP8
Автор протестировал восемь моделей, включая Qwen 3.6 и Gemma 4, на видеокарте H100 с помощью vLLM. Выяснилось, что MoE-архитектура Gemma 4 обеспечивает в 14 раз большую пропускную способность, чем плотные аналоги, а FP8 квантование значительно ускоряет работу MoE-моделей. Плотные модели 30B+ класса теряют производительность под нагрузкой на одном GPU, поэтому для продакшена рекомендуется использовать MoE.
score 23r/LocalLLaMA