Reddit25 апреля 2026 г.

Бенчмарк Qwen 3.6 и Gemma 4 на H100: скорость, задержки и влияние FP8

Автор протестировал восемь моделей, включая Qwen 3.6 и Gemma 4, на видеокарте H100 с помощью vLLM. Выяснилось, что MoE-архитектура Gemma 4 обеспечивает в 14 раз большую пропускную способность, чем плотные аналоги, а FP8 квантование значительно ускоряет работу MoE-моделей. Плотные модели 30B+ класса теряют производительность под нагрузкой на одном GPU, поэтому для продакшена рекомендуется использовать MoE.

score 23r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1sv81sw/throughput_and_ttft_comparisons_of_qwen_36_27b/