Reddit15 мая 2026 г.

Самоигра для LLM: новый алгоритм SGS решает проблему коллапса обучения

Исследователи предложили алгоритм Self-Guided Self-Play (SGS), предотвращающий коллапс обучения при самоигре больших языковых моделей. В отличие от предыдущих методов, SGS добавляет роль «Гайда», оценивающего полезность сгенерированных задач. Эксперименты в Lean4 показали, что модель 7B после 200 раундов превосходит по решению задач модель 671B.

score 35r/singularity

reddit.comhttps://www.reddit.com/r/singularity/comments/1tdm02f/selfplay_helped_ai_achieve_superhuman_performance/