Reddit6 мая 2026 г.

Оптимизация MTP в llama.cpp на платформе AMD Strix Halo

Пользователь протестировал поддержку Multi-Token Prediction (MTP) в библиотеке llama.cpp на процессоре AMD Strix Halo. Скорость генерации на модели Qwen выросла с 40 до 60–80 токенов в секунду благодаря новой функциональности. Эксперимент подтверждает эффективность метода для ускорения локального инференса больших моделей.

score 49r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1t4uj9h/mtp_on_strix_halo_with_llamacpp_pr_22673/