Reddit18 июня 2026 г.

Обход защитных фильтров LLM: как обычный текст меняет латентные траектории без джейлбрейков

Исследование предполагает, что текущие методы пост-тренировочного выравнивания RLHF и DPO могут быть архитектурно уязвимы. Насыщение контекстного окна плотным нарративом способно математически подавить инструкции безопасности через механизм внимания, не требуя сложных атак. Автор предлагает измерять эти сдвиги латентных состояний, ставя под сомнение эффективность существующих подходов к безопасности ИИ.

score 40r/AI_Agents

reddit.comhttps://www.reddit.com/r/AI_Agents/comments/1u8qfij/bypassing_llm_guardrails_how_plain_text_shifts/