Reddit
MTP скоро появится в llama.cpp: список поддерживаемых моделей
Технология Multi-Token Prediction (MTP) интегрируется в библиотеку llama.cpp для ускорения генерации. Автор публикует список моделей, совместимых с этой оптимизацией, включая DeepSeek, Qwen и GLM, и напоминает о необходимости конвертации весов в GGUF до появления нативной поддержки.
score 78r/LocalLLaMA