Reddit
Я заставил Qwen3.5 взломать сам себя с помощью RL, чтобы улучшить защиту
Исследователь построил автоматическую петлю red-teaming на основе обучения с подкреплением (RL), где атакующая модель генерирует атаки, а защитная учится на них. Использование кластеризации тактик позволило разнообразить атаки и повысить уровень защиты модели с 64% до 92% без значительной потери полезности.
score 19r/LocalLLaMA