Reddit13 мая 2026 г.

Обнаружен скрытый коэффициент в Transformer, предсказывающий геометрическую стабильность

Исследователь проанализировал декодеры Transformer с помощью спектрального анализа Ляпунова. Выявлено, что соотношение спектральных норм MLP и внимания указывает на риск коллапса модели в ранг-1. Для стабильности рекомендуется поддерживать это соотношение в диапазоне 0.5–2.

score 13r/MachineLearning

reddit.comhttps://www.reddit.com/r/MachineLearning/comments/1tb2na1/i_found_a_hidden_ratio_in_transformers_that/