Reddit9 мая 2026 г.

Что говорит Клоуд, а что он думает на самом деле

Anthropic опубликовали исследование по естественным языковым автоэнкодерам, позволяющим декодировать внутренние состояния моделей. Пост на Reddit обсуждает разрыв между генерируемым текстом и скрытыми мыслями нейросети. Это важно для понимания интерпретируемости и безопасности больших языковых моделей.

score 100r/ClaudeAI

reddit.comhttps://www.reddit.com/r/ClaudeAI/comments/1t7y09y/what_claude_says_vs_what_claude_thinks/