Назад к дайджесту
Reddit

Реализация обучения с подкреплением в AI Toolkit

В AI Toolkit реализован метод обучения с подкреплением (GRPO) для настройки моделей по предпочтениям через интерфейс голосования. Алгоритм использует бинарные награды вместо ранжирования, позволяя кастомизировать выходы без ссылок на данные. На данный момент это POC с проблемами по памяти, но инструмент позволяет экспериментировать с персонализацией.

score 21r/StableDiffusion