Reddit
LLM-as-judge — это неправильный стандарт. Вот что работает
Автор критикует использование LLM для оценки ответов агентов, указывая на нестабильность и игнорирование внутреннего процесса. Вместо этого предлагается анализировать траекторию вызовов инструментов, проводить пошаговый реплей с фиксированными ответами и кластеризовать продакшн-трейсы для выявления дрейфа поведения.
score 22r/AI_Agents