Назад к дайджесту
Новость

«Франкенштейн» на 30 ГБ: пересадка Gemma в архитектуру DeepSeek без дообучения

Статья описывает эксперимент по слиянию весов модели Gemma 31B с архитектурой MoE DeepSeek. Авторы демонстрируют запуск гибридной модели на 30 ГБ RAM без дообучения, используя нестандартный подход к MLOps.