Reddit
Первое комплексное исследование TurboQuant: Точность и производительность
Исследование анализирует методы квантования KV-кэша для больших языковых моделей, сравнивая FP8 с вариантами TurboQuant. FP8 признан лучшим выбором по умолчанию, тогда как другие варианты предлагают компромиссы между экономией памяти и потерями в точности или скорости работы. Некоторые методы квантования показывают значительное снижение производительности, что делает их непригодными для продакшена.
score 90r/LocalLLaMA