Reddit
Qwen3.6 27B NVFP4 + MTP на RTX 5090: 200k контекста в vLLM
Автор протестировал запуск квантованной модели Qwen3.6 27B (NVFP4) на видеокарте RTX 5090 через vLLM с активированным MTP. Достигнут стабильный режим работы с контекстом 200k токенов, опубликованы детальные конфигурационные параметры для повторения. Материал полезен для энтузиастов локального развертывания больших языковых моделей.
score 64r/LocalLLaMA