Назад к дайджесту
Reddit

Qwen3.6-27B: сравнение INT и NVFP квантований

Пост содержит практическое сравнение форматов квантования INT и NVFP для модели Qwen3.6-27B с акцентом на размер весов и контекстное окно. Автор разбирает компромисс между точностью смешанной точности и потерей памяти, а также влияние на производительность при батчинге. Рекомендации помогут выбрать оптимальный формат для конкретных задач развертывания.

score 12r/LocalLLaMA