Reddit
EvoSkill: Устранение повторяющихся ошибок агентов на основе оценки
Описывается метод EvoSkill для анализа неудачных запусков агентов и эволюции навыков или правок промптов. Изменения сохраняются в git и применяются только после улучшения результатов на тестовых данных. Метод показал рост точности на бенчмарках OfficeQA, SealQA и BrowseComp.
score 40r/AI_Agents