Reddit
Извините за невежество, но как модель на 27B параметров может превосходить модель на 397B?
Пользователь Reddit задаётся вопросом о сравнении производительности плотных и MoE-архитектур LLM, сомневаясь в том, что модель Qwen на 27B параметров может быть лучше модели на 397B. Обсуждается роль дополнительных экспертов в MoE-моделях и эффективность разных архитектур при сравнительном тестировании.
score 100r/LocalLLaMA