Назад к дайджесту
Reddit

Бейтест инъекций промптов: разделители и строгие инструкции подняли защиту Gemma 4 с 21% до 100% (15 моделей, 6100+ тестов)

Автор протестировал 15 языковых моделей на устойчивость к инъекциям промптов, используя метод с разделителями и строгими инструкциями. Gemma 4 показала самый резкий скачок защиты — с 21% до 100%, аналогичные результаты у Grok и Qwen. Исследование подтверждает эффективность изоляции данных через разделители для снижения рисков безопасности в LLM.

score 18r/LocalLLaMA