Назад к дайджесту
Reddit

Контрастное целевое SFT как метод мехинтерпретации — кто-нибудь так исследовал причинно-следственные связи?

Автор экспериментирует с контрастным SFT для выявления нейронных цепей в модели на 31B параметров, сравнивая обучение на слабых и сильных измерениях качества. Цель — построить граф причинно-следственных зависимостей между способностями модели и определить оптимальный порядок обучения. Запрос на опыт по итеративному целевому SFT, управляемому трассировкой цепей, и методам различения прямых и косвенных эффектов при абляции.

score 40r/MachineLearning