Reddit18 июня 2026 г.

Контрастное целевое SFT как метод мехинтерпретации — кто-нибудь так исследовал причинно-следственные связи?

Автор экспериментирует с контрастным SFT для выявления нейронных цепей в модели на 31B параметров, сравнивая обучение на слабых и сильных измерениях качества. Цель — построить граф причинно-следственных зависимостей между способностями модели и определить оптимальный порядок обучения. Запрос на опыт по итеративному целевому SFT, управляемому трассировкой цепей, и методам различения прямых и косвенных эффектов при абляции.

score 40r/MachineLearning

reddit.comhttps://www.reddit.com/r/MachineLearning/comments/1u8if6l/contrastive_targeted_sft_as_a_mechinterp_method/