Reddit
Большинство тестов AI-агентов игнорируют эффективность выполнения
Автор делится наблюдениями: внутренние тесты AI-агентов часто показывают успешное завершение задачи, но скрывают неэффективность — лишние вызовы инструментов, повторные шаги и избыточные рассуждения. Стандартные метрики оценивают только вход и выход, игнорируя оркестрацию, что приводит к дорогим и ненадёжным системам в продакшене.
score 31r/AI_Agents