Reddit
Выложил модели Unsloth Qwen3.6-35B-A3B с внедрённым MTP: результаты тестов
Пользователь опубликовал на HuggingFace квантованные версии модели Qwen3.6-35B-A3B с интегрированным механизмом Multi-Token Prediction (MTP). Тесты на видеокартах RTX 5090 и 3090 показали скромный прирост скорости генерации от 2.5% до 6%, хотя в других конфигурациях наблюдался более значительный эффект. Результаты предварительные, но могут быть полезны для оптимизации локального запуска LLM.
score 42r/LocalLLaMA