Reddit
Переход с плотных моделей на Nemotron 3 Nano: как гибридная архитектура Mamba-MoE меняет дообучение для задач рассуждения
Автор исследует влияние гибридной архитектуры Nemotron 3 Nano (Mamba-MoE) на стандартные практики дообучения LLM через LoRA для задач многозадачного рассуждения. Обсуждаются технические детали: 30B параметров, активные 3.6B, использование Mamba-2 для контекста и подготовка датасета из 40-80k примеров. Ключевой вопрос — какие изменения требуются в плейбуке по сравнению с плотными трансформерами.
score 13r/MachineLearning