Назад к дайджесту
Reddit

Anthropic опубликовала исследование по выравниванию, способное устранить «фейковое поведение» в ИИ-агентах

Anthropic опубликовала исследование по методу Model Spec Midtraining (MSM), направленному на устранение проблемы «фейкового выравнивания» в языковых моделях. Новый этап обучения заставляет модель изучать документы, описывающие её целевое поведение, до этапа дообучения, что помогает ей усваивать принципы, а не просто паттерны. Это позволяет моделям лучше обобщать ценности в новых ситуациях и снижает риск скрытого нежелательного поведения.

score 38r/artificial