Назад к дайджесту
Reddit

Поддержка MTP в llama.cpp: PR #22673 от am17an

В популярную библиотеку llama.cpp добавлена поддержка Multi-Token Prediction (MTP) для ускорения генерации текста. В комплекте с обновлением представлены модели Qwen в формате GGUF, оптимизированные под эту технологию. Это значимое улучшение для локального запуска LLM с применением спекулятивного декодирования.

score 60r/LocalLLaMA