Reddit5 мая 2026 г.

MTP скоро появится в llama.cpp: список поддерживаемых моделей

Технология Multi-Token Prediction (MTP) интегрируется в библиотеку llama.cpp для ускорения генерации. Автор публикует список моделей, совместимых с этой оптимизацией, включая DeepSeek, Qwen и GLM, и напоминает о необходимости конвертации весов в GGUF до появления нативной поддержки.

score 78r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1t46o09/as_mtp_prepares_to_land_in_llamacpp_models_that/