Reddit
Стек оценки LLM-приложений: почему RAGAS и DeepEval недостаточно для продакшена
Автор утверждает, что популярные инструменты оценки вроде RAGAS и DeepEval покрывают только первый слой задач, игнорируя наблюдаемость и реальный трафик. Статья описывает трёхуровневую архитектуру тестирования, включая метрики, фреймворки и платформы observability для агентов и мультимодальных систем.
score 10r/AI_Agents