Reddit29 апреля 2026 г.

IK_LLAMA теперь поддерживает MTP для Qwen3.5

Форк библиотеки llama.cpp получил поддержку Multi-Token Prediction (MTP) для моделей Qwen, что позволяет ускорить генерацию токенов. Пользователи отмечают прирост скорости до 30 токенов в секунду при использовании pipeline parallelism и сохранении MTP-слоёв в GGUF. Обновление требует специфических версий GGUF с сохранёнными MTP-слоями.

score 54r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1sz0aaj/ik_llama_now_supports_qwen35_mtp_support_o/