Reddit
MiniMax M3 на 8–16 GPU AMD MI50: 19 токенов в секунду (пиковая скорость)
Автор поделился результатами запуска модели MiniMax M3 на 8–16 видеокартах AMD MI50 с использованием специализированного форка vLLM. Скорость инференса составила 19 токенов в секунду, но отмечены недостатки в качестве кода и длине рассуждений, а также потенциал для оптимизации через обновление стека ROCm.
score 40r/LocalLLaMA