Reddit
Дрейф внимания: что изучают модели авторегрессивного спекулятивного декодирования
Исследование выявляет феномен «дрейфа внимания» в спекулятивном декодировании LLM, где модель-черновик теряет фокус на промпте в пользу сгенерированных токенов. Авторы предлагают архитектурные изменения (Post-norm и RMSNorm), что увеличивает длину принятия токенов до 2 раз при возмущениях шаблона и улучшает работу с длинным контекстом. Методы превосходят текущие решения, такие как EAGLE3, на стандартных бенчмарках по чату, математике и коду.
score 19r/LocalLLaMA