Reddit
torch-nvenc-compress: Использование NVENC для сжатия данных LLM и обхода PCIe-бутылочного горлышка
Разработчик создал библиотеку на Python, использующую аппаратные видеокодеки GPU Nvidia для сжатия активаций и KV-кэша при многокарточном инференсе. Это позволяет преодолеть ограничения пропускной способности PCIe, передавая меньший объём данных между картами. Решение включает PCA-предобработку и прямые обёртки над Video Codec SDK без накладных расходов.
score 12r/MachineLearning