Reddit2 мая 2026 г.

Какая скорость (tps) на RTX 3090 с Qwen 3.6 27B в реальных задачах?

Пользователь обсуждает производительность локального запуска модели Qwen 3.6 27B на видеокарте RTX 3090 с большими контекстными окнами. Он сталкивается с проблемами скорости (10-11 тпс) и переполнения памяти при использовании различных фреймворков вроде llama.cpp и vLLM. Вопрос касается оптимизации инференса для создания локальных агентов, способных работать с кодом.

score 23r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1t1nts8/whats_your_tps_on_3090_qwen_36_27b_in_real_tasks/