Reddit
Qwen3.6-35B-A3B — даже при ограниченном VRAM большие квантования могут работать лучше, чем кажется!
Автор тестирует модель Qwen3.6-35B-A3B на слабом железе (3070 8GB) и обнаружил, что более крупные квантования (Q4_K_XL, Q5_K_S) работают быстрее и стабильнее, чем ожидалось. Рекомендует экспериментировать с квантованием для MoE-моделей, особенно при работе с длинным контекстом.
score 86r/LocalLLaMA