Назад к дайджесту
Reddit

RTX 5070 Ti 16 ГБ + 32 ГБ ОЗУ: Запуск Qwen3.6-35B-A3B Q8_0 со скоростью 44 т/с (контекст 128K)

Пользователь делится результатами локального запуска модели Qwen3.6-35B-A3B в квантовании Q8_0 на системе с видеокартой RTX 5070 Ti и 32 ГБ оперативной памяти. Настройка LM Studio с GPU offload и переносом MoE-экспертов на CPU обеспечивает 44 токена в секунду при полном контексте 128K.

score 29r/LocalLLaMA