Назад к дайджесту
Reddit

Какая скорость (tps) на RTX 3090 с Qwen 3.6 27B в реальных задачах?

Пользователь обсуждает производительность локального запуска модели Qwen 3.6 27B на видеокарте RTX 3090 с большими контекстными окнами. Он сталкивается с проблемами скорости (10-11 тпс) и переполнения памяти при использовании различных фреймворков вроде llama.cpp и vLLM. Вопрос касается оптимизации инференса для создания локальных агентов, способных работать с кодом.

score 23r/LocalLLaMA