Reddit29 апреля 2026 г.

Qwen3.6 27B на двух RTX 5060 Ti с vLLM: 204k контекста и ~60 ток/с

Тестирование локального запуска модели Qwen3.6 27B на конфигурации из двух видеокарт RTX 5060 Ti 16GB с использованием vLLM. Демонстрируется работа с контекстом до 204k токенов при скорости генерации около 60 токенов в секунду, включая оптимизацию через NVFP4-MTP и speculative decoding.

score 64r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1sysyz2/qwen36_27b_on_dual_rtx_5060_ti_16gb_with_vllm_60/