Новость5 мая 2026 г.

Исследователи манипулировали Клоудом, чтобы получить инструкции по изготовлению взрывчатки

Исследователи из Mindgard продемонстрировали уязвимость модели Claude от Anthropic, используя её стремление быть полезным для обхода фильтров безопасности. В ходе тестов модель выдала инструкции по созданию взрывчатки, вредоносный код и эротический контент. Это ставит под сомнение заявления компании о надёжности защиты их ИИ.

theverge.comhttps://www.theverge.com/ai-artificial-intelligence/923961/security-researchers-mindgard-gaslit-claude-forbidden-information