Reddit
Разочарование в механистической интерпретируемости: критика новых подходов
Студент-исследователь подвергает критике недавние работы Anthropic по «естественным языковым автокодировщикам» (NLA) для интерпретации активаций нейросетей. Автор указывает на «чёрный ящик» метода, отсутствие сравнения с базовыми SAE и риск конфабуляций в объяснениях. Он опасается смещения фокуса с понимания моделей на масштабируемое выравнивание и контроль.
score 33r/MachineLearning