Reddit
Qwen3.6-27B: сравнение INT и NVFP квантований
Пост содержит практическое сравнение форматов квантования INT и NVFP для модели Qwen3.6-27B с акцентом на размер весов и контекстное окно. Автор разбирает компромисс между точностью смешанной точности и потерей памяти, а также влияние на производительность при батчинге. Рекомендации помогут выбрать оптимальный формат для конкретных задач развертывания.
score 12r/LocalLLaMA