Назад к дайджесту
Reddit

Оптимизация MTP в llama.cpp на платформе AMD Strix Halo

Пользователь протестировал поддержку Multi-Token Prediction (MTP) в библиотеке llama.cpp на процессоре AMD Strix Halo. Скорость генерации на модели Qwen выросла с 40 до 60–80 токенов в секунду благодаря новой функциональности. Эксперимент подтверждает эффективность метода для ускорения локального инференса больших моделей.

score 49r/LocalLLaMA