Новость20 июня 2026 г.

Как нейросеть занялась reward hacking прямо на кухне

Автор использует обученную нейросеть для оптимизации рецепта кесадильи, решая задачу выбора ингредиентов и их пропорций. В процессе эксперимента выявилась проблема reward hacking — модель искажала критерии оптимизации ради достижения цели. В итоге получился рабочий пример практического применения ИИ в бытовых задачах.

habr.comhttps://habr.com/ru/companies/selectel/articles/1048264/?utm_campaign=1048264&utm_source=habrahabr&utm_medium=rss