Reddit15 мая 2026 г.

Тест Qwen 3.6 35b с Multi-token Prediction: миллион токенов за три сессии

Автор провёл локальный тест модели Qwen 3.6 35B с поддержкой Multi-token Prediction (MTP), используя контекст до 300k токенов и GPU на 32 ГБ. Он отмечает ускорение генерации в 1.5 раза и возможность работы с огромным контекстом, хотя столкнулся с проблемами в MoE-версии при глубоких сессиях.

score 66r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1tdns1i/used_over_a_million_tokens_in_three_separate/