Назад к дайджесту
Reddit

Я заставил Qwen3.5 взломать сам себя с помощью RL, чтобы улучшить защиту

Исследователь построил автоматическую петлю red-teaming на основе обучения с подкреплением (RL), где атакующая модель генерирует атаки, а защитная учится на них. Использование кластеризации тактик позволило разнообразить атаки и повысить уровень защиты модели с 64% до 92% без значительной потери полезности.

score 19r/LocalLLaMA