Назад к дайджесту
Reddit

Квантуете ли вы память?

В Reddit-сообществе обсуждают стратегии квантования KV-кэша для оптимизации инференса LLM. Пользователи делятся опытом использования BF16, Q8 и Q4, оценивая влияние точности на галлюцинации и потребление ресурсов. Это практический разговор о настройке инференса нейросетей.

score 18r/LocalLLaMA