Reddit
110 ток/с на Qwen3.6 35B A3B с 12 ГБ VRAM через ik_llama.cpp
Пользователь оптимизировал локальный инференс модели Qwen3.6 35B A3B, заменив стандартный llama.cpp на форк ik_llama.cpp с поддержкой MTP. Это позволило достичь 110 ток/с на видеокарте RTX 4070 Super с 12 ГБ памяти, превзойдя результаты стандартных бенчмарков.
score 64r/LocalLLaMA