Загрузка...

Назад к дайджесту

Reddit17 мая 2026 г.

Сравнение производительности LLM на Strix Halo, RTX 3090 и RTX 5070

Автор провёл независимый бенчмарк инференса различных языковых моделей (Gemma, Qwen) на трёх платформах: Strix Halo, RTX 3090 и RTX 5070. Исследование показало, что пропускная способность памяти критична для декодирования, а объём VRAM определяет максимальный размер модели. Также описаны нюансы производительности между ROCm и Vulkan и влияние квантования на скорость генерации.

score 36r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1tf9iyk/ran_the_same_models_across_strix_halo_rtx_3090/