Reddit15 мая 2026 г.

Я заставил Qwen3.5 взломать сам себя с помощью RL, чтобы улучшить защиту

Исследователь построил автоматическую петлю red-teaming на основе обучения с подкреплением (RL), где атакующая модель генерирует атаки, а защитная учится на них. Использование кластеризации тактик позволило разнообразить атаки и повысить уровень защиты модели с 64% до 92% без значительной потери полезности.

score 19r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1tdegh0/i_trained_qwen35_to_jailbreak_itself_with_rl_then/