Назад к дайджесту
Reddit

Оптимизация лимита мощности и скорости вывода на паре RTX 3090

Автор ищет оптимальный баланс между энергопотреблением и скоростью генерации токенов при запуске LLM Qwen3.6-27B на двух видеокартах RTX 3090. Эксперимент с vLLM показал, что лимит в 250 Вт является 'сладкой точкой' для производительности. Приведены детальные настройки конфигурации сервера и команды для бенчмарка.

score 28r/LocalLLaMA