Reddit
IK_LLAMA теперь поддерживает MTP для Qwen3.5
Форк библиотеки llama.cpp получил поддержку Multi-Token Prediction (MTP) для моделей Qwen, что позволяет ускорить генерацию токенов. Пользователи отмечают прирост скорости до 30 токенов в секунду при использовании pipeline parallelism и сохранении MTP-слоёв в GGUF. Обновление требует специфических версий GGUF с сохранёнными MTP-слоями.
score 54r/LocalLLaMA