Reddit
ParoQuant: Парная вращательная квантовизация для эффективного вывода LLM в задачах рассуждения
ParoQuant представляет собой новый метод квантовизации на основе парных вращений, направленный на ускорение вывода больших языковых моделей. Технология оптимизирует работу LLM в задачах логического рассуждения, снижая требования к вычислительным ресурсам. Проект опубликован в открытом доступе на GitHub и Hugging Face.
score 48r/LocalLLaMA