Reddit
Сравнение производительности LLM на Strix Halo, RTX 3090 и RTX 5070
Автор провёл независимый бенчмарк инференса различных языковых моделей (Gemma, Qwen) на трёх платформах: Strix Halo, RTX 3090 и RTX 5070. Исследование показало, что пропускная способность памяти критична для декодирования, а объём VRAM определяет максимальный размер модели. Также описаны нюансы производительности между ROCm и Vulkan и влияние квантования на скорость генерации.
score 36r/LocalLLaMA