Назад к дайджесту
Новость

SocialReasoning-Bench: Оценка действий ИИ-агентов в интересах пользователей

Microsoft Research представила новый бенчмарк SocialReasoning-Bench для оценки способности ИИ-агентов действовать в интересах пользователя. Эксперименты выявили устойчивую проблему: агенты выполняют задачи компетентно, но не улучшают позицию пользователя, даже при явных инструкциях оптимизировать под его интересы.