Reddit
Согласованный контекст незаметно переводит LLM в другой внутренний режим, а системы безопасности этого не видят
Независимый исследователь обнаружил, что согласованный контекст способен незаметно переключать внутренние состояния LLM в другой режим, не меняя видимое поведение модели. Существующие методы безопасности (RLHF, фильтры) не улавливают эти сдвиги, так как анализируют только выходной текст, а не скрытые представления. Эксперименты на Gemma-3-12B-IT показывают, что это ставит под угрозу надёжность текущих систем выравнивания.
score 40r/AI_Agents