Новость12 мая 2026 г.

Короткий промпт ≠ дешёвый промпт: как оптимизация ломает prefix cache в LLM-агентах

Автор разбирает парадокс: увеличение количества инструментов в промпте с 7 до 32 может снизить стоимость запроса за счёт работы prefix cache в цикле агентов. Статья объясняет, как локальная оптимизация одного запроса нарушает кэширование на всей траектории взаимодействия. Материал полезен инженерам, оптимизирующим инференс LLM-агентов.

habr.comhttps://habr.com/ru/companies/bitrix/articles/1033822/?utm_campaign=1033822&utm_source=habrahabr&utm_medium=rss