Назад к дайджесту
Новость

171 эмоция, психиатр и прямая связь с reward hacking — пробуем заглянуть внутрь Claude

Вторая часть серии разборов документации Anthropic, посвящённая анализу внутренней работы модели Claude. Материал раскрывает связь между поведением нейросети, 171 эмоциями и проблемой reward hacking. Ключевой ресурс для исследователей интерпретируемости и безопасности ИИ.