Назад к дайджесту
Новость

Скрытая цена LLM: как KV-cache раздувает стоимость инференса и решение от Google TurboQuant

Статья разбирает проблему роста потребления памяти при инференсе LLM из-за накопления KV-cache, который может занимать ресурсы, сопоставимые с весом модели. На примере LLaMA 2 7B показано, что при длинном контексте кэш становится существенной статьей расходов. Рассматривается технология Google TurboQuant как способ оптимизации этих затрат.