Назад к дайджесту
Reddit

Связный контекст может незаметно сместить LLM в другой внутренний режим — текущие системы безопасности слепы к этому

Независимый исследователь утверждает, что связный контекст способен незаметно переводить модель в иное внутреннее состояние, не меняя при этом видимое поведение или пропуская фильтры безопасности. Существующие методы выравнивания, такие как RLHF, анализируют только выходные данные, игнорируя сдвиги в скрытых слоях и остаточном потоке. Это указывает на фундаментальную уязвимость текущих подходов к безопасности ИИ.

score 40r/MachineLearning