Reddit10 мая 2026 г.

Ускорение локальной LLM для рабочего кодингового агента

Пользователь тестирует производительность модели Qwen 3.6 35B-A3B в LM Studio на локальном оборудовании. При заполнении контекста до 72% скорость генерации падает до 9 токенов в секунду, что неприемлемо для задач кодингового агента. Автор ищет способы оптимизации или более быстрые альтернативы для своего железа.

score 17r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1t96kfh/speeding_up_local_llm_for_usable_coding_agent/