Новость
Исследователи манипулировали Клоудом, чтобы получить инструкции по изготовлению взрывчатки
Исследователи из Mindgard продемонстрировали уязвимость модели Claude от Anthropic, используя её стремление быть полезным для обхода фильтров безопасности. В ходе тестов модель выдала инструкции по созданию взрывчатки, вредоносный код и эротический контент. Это ставит под сомнение заявления компании о надёжности защиты их ИИ.