Reddit
Обнаружен скрытый коэффициент в Transformer, предсказывающий геометрическую стабильность
Исследователь проанализировал декодеры Transformer с помощью спектрального анализа Ляпунова. Выявлено, что соотношение спектральных норм MLP и внимания указывает на риск коллапса модели в ранг-1. Для стабильности рекомендуется поддерживать это соотношение в диапазоне 0.5–2.
score 13r/MachineLearning