Как квантовать модель?

Пользователь ищет инструкцию по конвертации чекпоинтов bf16 в формат GGUF (Q8) для экономии VRAM при запуске Z-Image Turbo. Задача включает работу с текстовым энкодером и VAE, что критично для локального инференса генеративных моделей. Обсуждение касается практических методов квантования для оптимизации вычислительных ресурсов.

score 40r/StableDiffusion

reddit.comhttps://www.reddit.com/r/StableDiffusion/comments/1u8nvbo/how_do_i_quantize_a_model/