Назад к дайджесту
Reddit

Обнаружен скрытый коэффициент в Transformer, предсказывающий геометрическую стабильность

Исследователь проанализировал декодеры Transformer с помощью спектрального анализа Ляпунова. Выявлено, что соотношение спектральных норм MLP и внимания указывает на риск коллапса модели в ранг-1. Для стабильности рекомендуется поддерживать это соотношение в диапазоне 0.5–2.

score 13r/MachineLearning