Назад к дайджесту
GitHub

Бенчмарк AutomationBench: оценка AI-агентов в бизнес-процессах

Zapier выпустили специализированный бенчмарк для тестирования автономных AI-агентов на реалистичных рабочих сценариях. Инструмент позволяет оценить эффективность моделей в выполнении сложных бизнес-задач и автоматизации процессов. Это важный шаг для стандартизации метрик качества агентов в продакшене.

272 forksPythonscore 59.5
primeintellectbenchmarksevalsllm