110 ток/с на Qwen3.6 35B A3B с 12 ГБ VRAM через ik_llama.cpp

Пользователь оптимизировал локальный инференс модели Qwen3.6 35B A3B, заменив стандартный llama.cpp на форк ik_llama.cpp с поддержкой MTP. Это позволило достичь 110 ток/с на видеокарте RTX 4070 Super с 12 ГБ памяти, превзойдя результаты стандартных бенчмарков.

score 64r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1tjh7az/110_toks_with_12gb_vram_on_qwen36_35b_a3b_and_ik/