Reddit27 апреля 2026 г.

Переход с плотных моделей на Nemotron 3 Nano: как гибридная архитектура Mamba-MoE меняет дообучение для задач рассуждения

Автор исследует влияние гибридной архитектуры Nemotron 3 Nano (Mamba-MoE) на стандартные практики дообучения LLM через LoRA для задач многозадачного рассуждения. Обсуждаются технические детали: 30B параметров, активные 3.6B, использование Mamba-2 для контекста и подготовка датасета из 40-80k примеров. Ключевой вопрос — какие изменения требуются в плейбуке по сравнению с плотными трансформерами.

score 13r/MachineLearning

reddit.comhttps://www.reddit.com/r/MachineLearning/comments/1sw5b44/going_from_3b7b_dense_to_nemotron_3_nano_hybrid/