Reddit6 мая 2026 г.

Anthropic опубликовала исследование по выравниванию, способное устранить «фейковое поведение» в ИИ-агентах

Anthropic опубликовала исследование по методу Model Spec Midtraining (MSM), направленному на устранение проблемы «фейкового выравнивания» в языковых моделях. Новый этап обучения заставляет модель изучать документы, описывающие её целевое поведение, до этапа дообучения, что помогает ей усваивать принципы, а не просто паттерны. Это позволяет моделям лучше обобщать ценности в новых ситуациях и снижает риск скрытого нежелательного поведения.

score 38r/artificial

reddit.comhttps://www.reddit.com/r/artificial/comments/1t4sj10/anthropic_just_published_new_alignment_research/