Назад к дайджесту
Reddit

После слияния MTP... Какие лучшие результаты вы получаете на Qwen 3.6 35B на двух 3090?

Обсуждение производительности локального запуска модели Qwen 3.6 35B на двух видеокартах RTX 3090. Пользователи делятся метриками скорости генерации в llama.cpp с активированным MTP и сравнивают её с альтернативными настройками. Выявлено компромиссное влияние Multi-Token Prediction на скорость вывода.

score 24r/LocalLLaMA