Назад к дайджесту
Reddit

Успешный запуск Qwen3.6-27B с MTP на двух видеокартах Mi50

Автор настроил модель Qwen3.6-27B с использованием технологии Multi-Token Prediction (MTP) на двух видеокартах AMD Mi50 через ROCm и специализированный форк llama.cpp. Тесты показали ускорение генерации до 1.5 раз по сравнению со стандартным режимом. Это практический пример эффективного использования старых GPU для локального запуска больших языковых моделей.

score 49r/LocalLLaMA