Reddit17 мая 2026 г.

После слияния MTP... Какие лучшие результаты вы получаете на Qwen 3.6 35B на двух 3090?

Обсуждение производительности локального запуска модели Qwen 3.6 35B на двух видеокартах RTX 3090. Пользователи делятся метриками скорости генерации в llama.cpp с активированным MTP и сравнивают её с альтернативными настройками. Выявлено компромиссное влияние Multi-Token Prediction на скорость вывода.

score 24r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1tf7auf/now_that_mtp_is_merged_whats_the_best_outputs/