Новость4 июня 2026 г.

Прямая оптимизация предпочтений: применение за пределами чат-ботов

Метод Direct Preference Optimization (DPO), ранее применявшийся преимущественно для диалоговых моделей, расширяется на другие области применения. Исследование демонстрирует эффективность техники для настройки ИИ в задачах, выходящих за рамки чат-ботов, включая генерацию кода и сложные рассуждения. Это актуально для разработчиков, занимающихся выравниванием и дообучением больших языковых моделей.

huggingface.cohttps://huggingface.co/blog/Dharma-AI/direct-preference-optimization-beyond-chatbots