Reddit7 мая 2026 г.

Выложил модели Unsloth Qwen3.6-35B-A3B с внедрённым MTP: результаты тестов

Пользователь опубликовал на HuggingFace квантованные версии модели Qwen3.6-35B-A3B с интегрированным механизмом Multi-Token Prediction (MTP). Тесты на видеокартах RTX 5090 и 3090 показали скромный прирост скорости генерации от 2.5% до 6%, хотя в других конфигурациях наблюдался более значительный эффект. Результаты предварительные, но могут быть полезны для оптимизации локального запуска LLM.

score 42r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1t5r4tz/uploaded_unsloth_qwen3635ba3b_ud_xl_models_with/