Reddit
Оптимизация лимита мощности и скорости вывода на паре RTX 3090
Автор ищет оптимальный баланс между энергопотреблением и скоростью генерации токенов при запуске LLM Qwen3.6-27B на двух видеокартах RTX 3090. Эксперимент с vLLM показал, что лимит в 250 Вт является 'сладкой точкой' для производительности. Приведены детальные настройки конфигурации сервера и команды для бенчмарка.
score 28r/LocalLLaMA