Назад к дайджесту
Reddit

LLM-as-judge — это неправильный стандарт. Вот что работает

Автор критикует использование LLM для оценки ответов агентов, указывая на нестабильность и игнорирование внутреннего процесса. Вместо этого предлагается анализировать траекторию вызовов инструментов, проводить пошаговый реплей с фиксированными ответами и кластеризовать продакшн-трейсы для выявления дрейфа поведения.

score 22r/AI_Agents