Reddit
Эластичные ядра внимания для масштабируемых зрительных трансформеров
Исследователи предлагают новый бэкбон для Vision Transformers, использующий блочно-разреженную структуру внимания «ядро-периферия» для снижения вычислительной сложности. Модель поддерживает динамическую настройку стоимости инференса во время тестирования и показывает точность, сопоставимую с DINOv3. Архитектура демонстрирует устойчивую работу на разрешениях от 256 до 1024 пикселей.
score 14r/MachineLearning