Новость
Сжатие контекста LLM наконец работает в продакшене: 16-кратное сокращение без потери точности
Команда исследователей из NYU, Columbia и других вузов представила LCLM — архитектуру сжатия входного контекста перед декодером. Метод позволяет сократить ввод в 16 раз и ускорить вывод в 8.8 раз на бенчмарке RULER, сохраняя точность модели. Решение открыто на HuggingFace и решает проблему вычислительных затрат при работе с длинными контекстами.