Reddit9 мая 2026 г.

Успешный запуск Qwen3.6-27B с MTP на двух видеокартах Mi50

Автор настроил модель Qwen3.6-27B с использованием технологии Multi-Token Prediction (MTP) на двух видеокартах AMD Mi50 через ROCm и специализированный форк llama.cpp. Тесты показали ускорение генерации до 1.5 раз по сравнению со стандартным режимом. Это практический пример эффективного использования старых GPU для локального запуска больших языковых моделей.

score 49r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1t86j45/more_qwen3627b_mtp_success_but_on_dual_mi50s/