Reddit
Разрыв между плотными и MoE-моделями стремительно сокращается с выходом версий 3.6-27B
Плотные модели всё ещё лидируют в большинстве задач, но архитектура MoE быстро сокращает отставание, особенно в задачах по программированию. Разрыв в бенчмарках SWE-bench сократился, а для работы на 24GB VRAM с большим контекстом MoE становится всё более выгодным выбором.
score 100r/LocalLLaMA