Новость
EVA-Bench Data 2.0: 3 области, 121 инструмент, 213 сценария
Обновлённый датасет EVA-Bench 2.0 предназначен для оценки мультимодальных агентов и включает 121 инструмент в 213 сценариях. Релиз расширяет возможности тестирования способностей моделей к использованию внешних сервисов в трёх ключевых доменах.