Reddit
Непрерывный хэрнесс: онлайн-адаптация самосовершенствующихся фундаментальных агентов
Исследователи формализуют цикл автоматического улучшения инструментов (хэрнесса) для агентов, автоматизируя процесс редактирования, который ранее требовал участия человека. Работа демонстрирует эффективность совместного обучения модели и её инструментов для задач долгосрочной агентности на примере проекта Gemini Plays Pokémon. Методика позволяет закрывать разрыв с ручными решениями через непрерывную онлайн-адаптацию.
score 12r/MachineLearning