Reddit
Docker-образы llama.cpp для запуска моделей MTP
Разработчик создал Docker-образы для llama.cpp, позволяющие запускать модели с поддержкой Multi-Token Prediction (MTP) до появления официальных сборок. Доступны варианты для CUDA, Vulkan, Intel и ROCm с акцентом на квантование Q8 для улучшения точности предсказаний. Приведено сравнение с решениями Unsloth и ссылки на модели Qwen 3.6.
score 84r/LocalLLaMA