Назад к дайджесту
Reddit

80 ток/сек и 128K контекста на 12 ГБ видеопамяти с Qwen3.6 35B A3B и llama.cpp MTP

Пользователь поделился конфигурацией для запуска модели Qwen3.6 35B A3B на видеокарте RTX 4070 Super с 12 ГБ памяти. С использованием llama.cpp и функции MTP удалось достичь 80 токенов в секунду и контекста 128K. В материале приведены команды запуска и ссылки на необходимые GGUF-модели.

score 100r/LocalLLaMA