Reddit
Завышены ли опасения по поводу пропускной способности PCI-E?
Автор экспериментирует с многопроцессорной сборкой для локального запуска LLM через vLLM и Tensor Parallelism. Бенчмарки показывают, что при инференсе Gemma и Qwen потребление PCIe-шины не превышает 50% от пропускной способности даже на x4 Gen 4. Это подтверждает возможность масштабирования без страха узкого места на шине данных.
score 21r/LocalLLaMA