Назад к дайджесту
Reddit

Обход защитных фильтров LLM: как обычный текст меняет латентные траектории без джейлбрейков

Исследование предполагает, что текущие методы пост-тренировочного выравнивания RLHF и DPO могут быть архитектурно уязвимы. Насыщение контекстного окна плотным нарративом способно математически подавить инструкции безопасности через механизм внимания, не требуя сложных атак. Автор предлагает измерять эти сдвиги латентных состояний, ставя под сомнение эффективность существующих подходов к безопасности ИИ.

score 40r/AI_Agents