Новость
SocialReasoning-Bench: Оценка действий ИИ-агентов в интересах пользователей
Microsoft Research представила новый бенчмарк SocialReasoning-Bench для оценки способности ИИ-агентов действовать в интересах пользователя. Эксперименты выявили устойчивую проблему: агенты выполняют задачи компетентно, но не улучшают позицию пользователя, даже при явных инструкциях оптимизировать под его интересы.