Назад к дайджесту
Reddit

Ускорение локальной LLM для рабочего кодингового агента

Пользователь тестирует производительность модели Qwen 3.6 35B-A3B в LM Studio на локальном оборудовании. При заполнении контекста до 72% скорость генерации падает до 9 токенов в секунду, что неприемлемо для задач кодингового агента. Автор ищет способы оптимизации или более быстрые альтернативы для своего железа.

score 17r/LocalLLaMA