Назад к дайджесту
Reddit

Сравнение Gemma 4 MTP и DFlash на H100: плотные модели против MoE

Проведено сравнение методов ускорения инференса MTP и DFlash для моделей Gemma 4 на видеокарте H100. На плотной модели 31B MTP показал преимущество в скорости, тогда как для MoE-версии 26B-A4B лучше сработал DFlash. Разница объясняется тем, что в MoE-архитектуре базовая скорость декодирования выше из-за меньшего числа активных параметров.

score 60r/LocalLLaMA