Reddit
Предсказание нескольких токенов (MTP) для Qwen в LLaMA.cpp + TurboQuant
Команда разработчиков реализовала оптимизацию Multi-Token Prediction (MTP) для модели Qwen в библиотеке LLaMA.cpp с использованием TurboQuant. Это позволило увеличить скорость генерации на 40% и достичь 34 токенов в секунду на MacBook Pro. Доступны патченая версия LLaMA.cpp и квантованные модели Qwen в формате GGUF.
score 69r/LocalLLaMA