Reddit
Qwen3.6 27B в FP8 с кэшем KV на 200k токенов выдаёт 80 TPS на одной RTX 5000 PRO 48GB
Автор протестировал запуск модели Qwen3.6 27B в FP8-квантовании на видеокарте RTX 5000 PRO 48GB с использованием движка vLLM. С кэшем KV в BF16 удалось достичь 80 токенов в секунду при контексте 200k, избегая ошибок квантования, что делает эту конфигурацию привлекательной для локальных агентов. Приведены конкретные настройки окружения для воспроизведения результатов.
score 24r/LocalLLaMA