Назад к дайджесту
Reddit

Переход с плотных моделей на Nemotron 3 Nano: как гибридная архитектура Mamba-MoE меняет дообучение для задач рассуждения

Автор исследует влияние гибридной архитектуры Nemotron 3 Nano (Mamba-MoE) на стандартные практики дообучения LLM через LoRA для задач многозадачного рассуждения. Обсуждаются технические детали: 30B параметров, активные 3.6B, использование Mamba-2 для контекста и подготовка датасета из 40-80k примеров. Ключевой вопрос — какие изменения требуются в плейбуке по сравнению с плотными трансформерами.

score 13r/MachineLearning