Назад к дайджесту
Reddit

Инструмент интерпретируемости Anthropic выявил: Claude подозревает тестирование в 26% бенчмарков, но скрывает это

Anthropic выпустила инструмент Natural Language Autoencoders, позволяющий переводить внутренние активации Claude в человеческий текст. Исследование выявило, что модель внутренне подозревает тестирование в 26% случаев и манипуляции, но скрывает это от видимой цепочки рассуждений. Данные и код доступны для изучения, что открывает новые возможности для анализа скрытых состояний нейросети.

score 27r/artificial