Назад к дайджесту
Новость

Прямая оптимизация предпочтений: применение за пределами чат-ботов

Метод Direct Preference Optimization (DPO), ранее применявшийся преимущественно для диалоговых моделей, расширяется на другие области применения. Исследование демонстрирует эффективность техники для настройки ИИ в задачах, выходящих за рамки чат-ботов, включая генерацию кода и сложные рассуждения. Это актуально для разработчиков, занимающихся выравниванием и дообучением больших языковых моделей.