Reddit
Почему в llama.cpp нельзя совместить методы спекулятивного декодирования?
Пользователь обсуждает возможность одновременного использования методов спекулятивного декодирования MTP и ngram в библиотеке llama.cpp для ускорения работы агентов. Цель — повысить скорость генерации в сценариях, где модель часто повторяет уже увиденный код. Сейчас при активации обоих методов работает только ngram, автор спрашивает, является ли это фундаментальным ограничением архитектуры или временной проблемой реализации.
score 38r/LocalLLaMA