Reddit
Почему SSM отстают в обучении с ограничением параметров: эмпирические данные на 25 млн параметров
Исследование в рамках конкурса OpenAI Parameter Golf показало структурное преимущество трансформеров над SSM в условиях жёстких ограничений по параметрам и времени. Эксперименты выявили проблемы сжатия весов, нестабильность результатов при изменении длины последовательности и технические баги в ядрах Mamba-3. Материалы представляют ценность для разработчиков, оптимизирующих архитектуру нейросетей под ограниченные ресурсы.
score 15r/MachineLearning