Reddit20 апреля 2026 г.

Архитектура внимания Mixture-of-Depths (MoDA)

Исследователи предлагают механизм Mixture-of-Depths Attention (MoDA) для решения проблемы деградации сигнала в глубоких языковых моделях. Метод позволяет головам внимания обращаться к парам KV из предыдущих слоев, обеспечивая эффективность, близкую к FlashAttention-2, и улучшение метрик на 2.11% при минимальных вычислительных затратах.

score 29r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1sq0hdv/mixtureofdepths_attention_arxiv/