Reddit
Настройка Qwen 3.6 + vLLM + Docker на двух RTX 3090 работает отлично
Некоммерческая организация опубликовала конфигурацию Docker для запуска LLM Qwen 3.6 через vLLM на двух видеокартах RTX 3090. В конфигурации учтены тензорный параллелизм, квантование AWQ 4-bit и оптимизации для многопользовательского режима, что подтверждено детальными бенчмарками. Материал будет полезен инженерам, занимающимся локальным развертыванием больших языковых моделей.
score 16r/LocalLLaMA