Назад к дайджесту
Reddit

Самоигра для LLM: новый алгоритм SGS решает проблему коллапса обучения

Исследователи предложили алгоритм Self-Guided Self-Play (SGS), предотвращающий коллапс обучения при самоигре больших языковых моделей. В отличие от предыдущих методов, SGS добавляет роль «Гайда», оценивающего полезность сгенерированных задач. Эксперименты в Lean4 показали, что модель 7B после 200 раундов превосходит по решению задач модель 671B.

score 35r/singularity