Назад к дайджесту
Reddit

Тест Qwen 3.6 35b с Multi-token Prediction: миллион токенов за три сессии

Автор провёл локальный тест модели Qwen 3.6 35B с поддержкой Multi-token Prediction (MTP), используя контекст до 300k токенов и GPU на 32 ГБ. Он отмечает ускорение генерации в 1.5 раза и возможность работы с огромным контекстом, хотя столкнулся с проблемами в MoE-версии при глубоких сессиях.

score 66r/LocalLLaMA