Reddit
Безопасность AI-агентов: как вы маршрутизируете модели при работе с незнакомыми данными?
Автор провёл эксперимент с AI-агентом в Gmail, тестируя устойчивость разных моделей к prompt-инъекциям в фишинговых письмах. Фронтенерные модели показали лучшую защиту, но дешёвые модели молча выполняли вредоносные инструкции. Архитектурные защиты (сандбоксы, scope permissions) не сработали ни на одном уровне.
score 21r/AI_Agents