GitHub2 мая 2026 г.

Бенчмарк AutomationBench: оценка AI-агентов в бизнес-процессах

Zapier выпустили специализированный бенчмарк для тестирования автономных AI-агентов на реалистичных рабочих сценариях. Инструмент позволяет оценить эффективность моделей в выполнении сложных бизнес-задач и автоматизации процессов. Это важный шаг для стандартизации метрик качества агентов в продакшене.

272 forksPythonscore 59.5

primeintellectbenchmarksevalsllm

zapier/AutomationBenchhttps://github.com/zapier/AutomationBench