Назад к дайджесту
Reddit

Разочарование в механистической интерпретируемости: критика новых подходов

Студент-исследователь подвергает критике недавние работы Anthropic по «естественным языковым автокодировщикам» (NLA) для интерпретации активаций нейросетей. Автор указывает на «чёрный ящик» метода, отсутствие сравнения с базовыми SAE и риск конфабуляций в объяснениях. Он опасается смещения фокуса с понимания моделей на масштабируемое выравнивание и контроль.

score 33r/MachineLearning