Назад к дайджесту
Reddit

torch-nvenc-compress: Использование NVENC для сжатия данных LLM и обхода PCIe-бутылочного горлышка

Разработчик создал библиотеку на Python, использующую аппаратные видеокодеки GPU Nvidia для сжатия активаций и KV-кэша при многокарточном инференсе. Это позволяет преодолеть ограничения пропускной способности PCIe, передавая меньший объём данных между картами. Решение включает PCA-предобработку и прямые обёртки над Video Codec SDK без накладных расходов.

score 12r/MachineLearning