Reddit
Что говорит Клоуд, а что он думает на самом деле
Anthropic опубликовали исследование по естественным языковым автоэнкодерам, позволяющим декодировать внутренние состояния моделей. Пост на Reddit обсуждает разрыв между генерируемым текстом и скрытыми мыслями нейросети. Это важно для понимания интерпретируемости и безопасности больших языковых моделей.
score 100r/ClaudeAI