Reddit7 мая 2026 г.

Почему в llama.cpp нельзя совместить методы спекулятивного декодирования?

Пользователь обсуждает возможность одновременного использования методов спекулятивного декодирования MTP и ngram в библиотеке llama.cpp для ускорения работы агентов. Цель — повысить скорость генерации в сценариях, где модель часто повторяет уже увиденный код. Сейчас при активации обоих методов работает только ngram, автор спрашивает, является ли это фундаментальным ограничением архитектуры или временной проблемой реализации.

score 38r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1t63snn/why_llamacpp_cant_combine_speculative_decode/