Reddit
ROCm против Vulkan и vLLM: тесты производительности Qwen на двух видеокартах AMD
Автор публикует результаты бенчмарков моделей Qwen3.6 (35B и 27B) на двух видеокартах AMD, сравнивая бэкенды llama.cpp (ROCm/Vulkan) и vLLM (ROCm+AITER). vLLM продемонстрировал существенный прирост скорости генерации, достигая 156 токенов в секунду для 35B модели. Также приведены данные по скорости префилла при работе с контекстом до 100K токенов.
score 40r/LocalLLaMA