GitHub
Бенчмарк AutomationBench: оценка AI-агентов в бизнес-процессах
Zapier выпустили специализированный бенчмарк для тестирования автономных AI-агентов на реалистичных рабочих сценариях. Инструмент позволяет оценить эффективность моделей в выполнении сложных бизнес-задач и автоматизации процессов. Это важный шаг для стандартизации метрик качества агентов в продакшене.
272 forksPythonscore 59.5
primeintellectbenchmarksevalsllm