Reddit
Реализация обучения с подкреплением в AI Toolkit
В AI Toolkit реализован метод обучения с подкреплением (GRPO) для настройки моделей по предпочтениям через интерфейс голосования. Алгоритм использует бинарные награды вместо ранжирования, позволяя кастомизировать выходы без ссылок на данные. На данный момент это POC с проблемами по памяти, но инструмент позволяет экспериментировать с персонализацией.
score 21r/StableDiffusion