Reddit16 мая 2026 г.

Непрерывный хэрнесс: онлайн-адаптация самосовершенствующихся фундаментальных агентов

Исследователи формализуют цикл автоматического улучшения инструментов (хэрнесса) для агентов, автоматизируя процесс редактирования, который ранее требовал участия человека. Работа демонстрирует эффективность совместного обучения модели и её инструментов для задач долгосрочной агентности на примере проекта Gemini Plays Pokémon. Методика позволяет закрывать разрыв с ручными решениями через непрерывную онлайн-адаптацию.

score 12r/MachineLearning

reddit.comhttps://www.reddit.com/r/MachineLearning/comments/1tcmj6v/continual_harness_online_adaptation_for/