Reddit29 апреля 2026 г.

Реализация обучения с подкреплением в AI Toolkit

В AI Toolkit реализован метод обучения с подкреплением (GRPO) для настройки моделей по предпочтениям через интерфейс голосования. Алгоритм использует бинарные награды вместо ранжирования, позволяя кастомизировать выходы без ссылок на данные. На данный момент это POC с проблемами по памяти, но инструмент позволяет экспериментировать с персонализацией.

score 21r/StableDiffusion

reddit.comhttps://www.reddit.com/r/StableDiffusion/comments/1syhp27/reinforcement_learning_implementation_in_ai/