Назад к дайджесту
Reddit

ParoQuant: Парная вращательная квантовизация для эффективного вывода LLM в задачах рассуждения

ParoQuant представляет собой новый метод квантовизации на основе парных вращений, направленный на ускорение вывода больших языковых моделей. Технология оптимизирует работу LLM в задачах логического рассуждения, снижая требования к вычислительным ресурсам. Проект опубликован в открытом доступе на GitHub и Hugging Face.

score 48r/LocalLLaMA