Reddit
Самоигра для LLM: новый алгоритм SGS решает проблему коллапса обучения
Исследователи предложили алгоритм Self-Guided Self-Play (SGS), предотвращающий коллапс обучения при самоигре больших языковых моделей. В отличие от предыдущих методов, SGS добавляет роль «Гайда», оценивающего полезность сгенерированных задач. Эксперименты в Lean4 показали, что модель 7B после 200 раундов превосходит по решению задач модель 671B.
score 35r/singularity