Новость13 июня 2026 г.

Один суффикс, чтобы взломать их всех

Статья исследует градиентные атаки на большие языковые модели, включая методы GCG и AutoDAN. Авторы выявляют, что устойчивость моделей к вредным запросам часто зависит от единого вектора отказа. Материал посвящён уязвимостям безопасности LLM и фундаментальным проблемам их защиты.

habr.comhttps://habr.com/ru/articles/1046890/?utm_campaign=1046890&utm_source=habrahabr&utm_medium=rss