Новость14 июня 2026 г.

Сжатие контекста LLM наконец работает в продакшене: 16-кратное сокращение без потери точности

Команда исследователей из NYU, Columbia и других вузов представила LCLM — архитектуру сжатия входного контекста перед декодером. Метод позволяет сократить ввод в 16 раз и ускорить вывод в 8.8 раз на бенчмарке RULER, сохраняя точность модели. Решение открыто на HuggingFace и решает проблему вычислительных затрат при работе с длинными контекстами.

venturebeat.comhttps://venturebeat.com/data/context-compression-finally-works-in-production-new-research-cuts-llm-input-16x-without-the-accuracy-hit