Новость
171 эмоция, психиатр и прямая связь с reward hacking — пробуем заглянуть внутрь Claude
Вторая часть серии разборов документации Anthropic, посвящённая анализу внутренней работы модели Claude. Материал раскрывает связь между поведением нейросети, 171 эмоциями и проблемой reward hacking. Ключевой ресурс для исследователей интерпретируемости и безопасности ИИ.