Назад к дайджесту
Reddit

MTP скоро появится в llama.cpp: список поддерживаемых моделей

Технология Multi-Token Prediction (MTP) интегрируется в библиотеку llama.cpp для ускорения генерации. Автор публикует список моделей, совместимых с этой оптимизацией, включая DeepSeek, Qwen и GLM, и напоминает о необходимости конвертации весов в GGUF до появления нативной поддержки.

score 78r/LocalLLaMA