Reddit15 июня 2026 г.

Связный контекст может незаметно сместить LLM в другой внутренний режим — текущие системы безопасности слепы к этому

Независимый исследователь утверждает, что связный контекст способен незаметно переводить модель в иное внутреннее состояние, не меняя при этом видимое поведение или пропуская фильтры безопасности. Существующие методы выравнивания, такие как RLHF, анализируют только выходные данные, игнорируя сдвиги в скрытых слоях и остаточном потоке. Это указывает на фундаментальную уязвимость текущих подходов к безопасности ИИ.

score 40r/MachineLearning

reddit.comhttps://www.reddit.com/r/MachineLearning/comments/1u5xnxg/coherent_context_can_silently_shift_llms_into_a/