Новость11 мая 2026 г.

SocialReasoning-Bench: Оценка действий ИИ-агентов в интересах пользователей

Microsoft Research представила новый бенчмарк SocialReasoning-Bench для оценки способности ИИ-агентов действовать в интересах пользователя. Эксперименты выявили устойчивую проблему: агенты выполняют задачи компетентно, но не улучшают позицию пользователя, даже при явных инструкциях оптимизировать под его интересы.

microsoft.comhttps://www.microsoft.com/en-us/research/blog/socialreasoning-bench-measuring-whether-ai-agents-act-in-users-best-interests/