Reddit
Контрастное целевое SFT как метод мехинтерпретации — кто-нибудь так исследовал причинно-следственные связи?
Автор экспериментирует с контрастным SFT для выявления нейронных цепей в модели на 31B параметров, сравнивая обучение на слабых и сильных измерениях качества. Цель — построить граф причинно-следственных зависимостей между способностями модели и определить оптимальный порядок обучения. Запрос на опыт по итеративному целевому SFT, управляемому трассировкой цепей, и методам различения прямых и косвенных эффектов при абляции.
score 40r/MachineLearning