Reddit12 мая 2026 г.

Сравнение Gemma 4 MTP и DFlash на H100: плотные модели против MoE

Проведено сравнение методов ускорения инференса MTP и DFlash для моделей Gemma 4 на видеокарте H100. На плотной модели 31B MTP показал преимущество в скорости, тогда как для MoE-версии 26B-A4B лучше сработал DFlash. Разница объясняется тем, что в MoE-архитектуре базовая скорость декодирования выше из-за меньшего числа активных параметров.

score 60r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1tb160j/gemma_4_mtp_vs_dflash_on_1x_h100_dense_vs_moe/