Reddit14 июня 2026 г.

Согласованный контекст незаметно переводит LLM в другой внутренний режим, а системы безопасности этого не видят

Независимый исследователь обнаружил, что согласованный контекст способен незаметно переключать внутренние состояния LLM в другой режим, не меняя видимое поведение модели. Существующие методы безопасности (RLHF, фильтры) не улавливают эти сдвиги, так как анализируют только выходной текст, а не скрытые представления. Эксперименты на Gemma-3-12B-IT показывают, что это ставит под угрозу надёжность текущих систем выравнивания.

score 40r/AI_Agents

reddit.comhttps://www.reddit.com/r/AI_Agents/comments/1u4uq67/coherent_context_can_silently_shift_llms_into_a/