Reddit
Как объективно оценить, что кастомные инструменты агента работают лучше?
Пользователь столкнулся с проблемой зацикливания LLM-агента Qwen3.6 при чтении файлов и создал кастомный инструмент для оптимизации. Обсуждение посвящено методам объективной оценки эффективности таких улучшений и необходимости бенчмаркинга для проверки реальной пользы.
score 17r/LocalLLaMA