Новость
Один суффикс, чтобы взломать их всех
Статья исследует градиентные атаки на большие языковые модели, включая методы GCG и AutoDAN. Авторы выявляют, что устойчивость моделей к вредным запросам часто зависит от единого вектора отказа. Материал посвящён уязвимостям безопасности LLM и фундаментальным проблемам их защиты.