Reddit
Квантуете ли вы память?
В Reddit-сообществе обсуждают стратегии квантования KV-кэша для оптимизации инференса LLM. Пользователи делятся опытом использования BF16, Q8 и Q4, оценивая влияние точности на галлюцинации и потребление ресурсов. Это практический разговор о настройке инференса нейросетей.
score 18r/LocalLLaMA