Reddit13 мая 2026 г.

Дрейф внимания: что изучают модели авторегрессивного спекулятивного декодирования

Исследование выявляет феномен «дрейфа внимания» в спекулятивном декодировании LLM, где модель-черновик теряет фокус на промпте в пользу сгенерированных токенов. Авторы предлагают архитектурные изменения (Post-norm и RMSNorm), что увеличивает длину принятия токенов до 2 раз при возмущениях шаблона и улучшает работу с длинным контекстом. Методы превосходят текущие решения, такие как EAGLE3, на стандартных бенчмарках по чату, математике и коду.

score 19r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1tbbh82/attention_drift_what_autoregressive_speculative/