Назад к дайджесту
Reddit

Qwen3.6 27B на двух RTX 5060 Ti с vLLM: 204k контекста и ~60 ток/с

Тестирование локального запуска модели Qwen3.6 27B на конфигурации из двух видеокарт RTX 5060 Ti 16GB с использованием vLLM. Демонстрируется работа с контекстом до 204k токенов при скорости генерации около 60 токенов в секунду, включая оптимизацию через NVFP4-MTP и speculative decoding.

score 64r/LocalLLaMA