Назад к дайджесту
Reddit

Allen AI выпустили новую MoE-модель EMO

Allen Institute for AI представил модель EMO с архитектурой Mixture of Experts (1 млрд активных параметров из 14 млрд общих), обученную на 1 триллионе токенов. Уникальная особенность — документ-уровневая маршрутизация, где эксперты специализируются на доменах вроде медицины или новостей, а не поверхностных паттернах. Архитектура доступна для скачивания на Hugging Face.

score 90r/LocalLLaMA