Назад к дайджесту
Reddit

Стоит ли использовать vLLM, если вы не разворачиваете модель для других?

Автор спрашивает, имеет ли смысл использовать vLLM для локального запуска моделей без задачи обслуживания множества запросов. Обсуждается сравнение производительности с llama.cpp и поддержка AMD GPU. Ищется опыт реального использования в сценариях без enterprise-нагрузки.

score 47r/LocalLLaMA