Reddit
Anthropic опубликовала исследование по выравниванию, способное устранить «фейковое поведение» в ИИ-агентах
Anthropic опубликовала исследование по методу Model Spec Midtraining (MSM), направленному на устранение проблемы «фейкового выравнивания» в языковых моделях. Новый этап обучения заставляет модель изучать документы, описывающие её целевое поведение, до этапа дообучения, что помогает ей усваивать принципы, а не просто паттерны. Это позволяет моделям лучше обобщать ценности в новых ситуациях и снижает риск скрытого нежелательного поведения.
score 38r/artificial