Назад к дайджесту
Reddit

Qwen3.6 27B NVFP4 + MTP на RTX 5090: 200k контекста в vLLM

Автор протестировал запуск квантованной модели Qwen3.6 27B (NVFP4) на видеокарте RTX 5090 через vLLM с активированным MTP. Достигнут стабильный режим работы с контекстом 200k токенов, опубликованы детальные конфигурационные параметры для повторения. Материал полезен для энтузиастов локального развертывания больших языковых моделей.

score 64r/LocalLLaMA