Reddit
Спекулятивное декодирование: тренд Papers with Code
Спекулятивное декодирование — это техника оптимизации вывода, где маленькая «черновая» модель быстро предлагает токены, а большая модель проверяет их параллельно. Метод значительно ускоряет генерацию текста в LLM без потери качества, позволяя генерировать несколько токенов за шаг. Сейчас он активно внедряется в фреймворки SGLang и vLLM для снижения задержек при обслуживании моделей.
score 55r/MachineLearning