Reddit10 мая 2026 г.

Разочарование в механистической интерпретируемости: критика новых подходов

Студент-исследователь подвергает критике недавние работы Anthropic по «естественным языковым автокодировщикам» (NLA) для интерпретации активаций нейросетей. Автор указывает на «чёрный ящик» метода, отсутствие сравнения с базовыми SAE и риск конфабуляций в объяснениях. Он опасается смещения фокуса с понимания моделей на масштабируемое выравнивание и контроль.

score 33r/MachineLearning

reddit.comhttps://www.reddit.com/r/MachineLearning/comments/1t6zdj6/disillusionment_with_mechanistic_interpretability/