Назад к дайджесту
Reddit

Qwen3.6-27B на 16 ГБ VRAM: 50 000 контекста в квантовании 4.256bpw

Пользователь поделился квантованной версией модели Qwen3.6-27B (4.256bpw), которая помещается в 16 ГБ видеопамяти RTX 5070 Ti с окном контекста 50 000 токенов. Это решение обеспечивает лучший баланс между объёмом контекста и качеством по сравнению с предыдущими попытками, несмотря на незначительное снижение точности. В обсуждении также рассматривается сравнение с MoE-моделью 35B и альтернативное квантование для видеокарт на 24 ГБ.

score 40r/LocalLLaMA