Reddit
Qwen3.6 27B на двух RTX 5060 Ti с vLLM: 204k контекста и ~60 ток/с
Тестирование локального запуска модели Qwen3.6 27B на конфигурации из двух видеокарт RTX 5060 Ti 16GB с использованием vLLM. Демонстрируется работа с контекстом до 204k токенов при скорости генерации около 60 токенов в секунду, включая оптимизацию через NVFP4-MTP и speculative decoding.
score 64r/LocalLLaMA