Reddit21 июня 2026 г.

ROCm против Vulkan и vLLM: тесты производительности Qwen на двух видеокартах AMD

Автор публикует результаты бенчмарков моделей Qwen3.6 (35B и 27B) на двух видеокартах AMD, сравнивая бэкенды llama.cpp (ROCm/Vulkan) и vLLM (ROCm+AITER). vLLM продемонстрировал существенный прирост скорости генерации, достигая 156 токенов в секунду для 35B модели. Также приведены данные по скорости префилла при работе с контекстом до 100K токенов.

score 40r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1ubqn87/rocm_vs_vulkan_vs_vllm_on_dual_r9700s/