Назад к дайджесту
Новость

Короткий промпт ≠ дешёвый промпт: как оптимизация ломает prefix cache в LLM-агентах

Автор разбирает парадокс: увеличение количества инструментов в промпте с 7 до 32 может снизить стоимость запроса за счёт работы prefix cache в цикле агентов. Статья объясняет, как локальная оптимизация одного запроса нарушает кэширование на всей траектории взаимодействия. Материал полезен инженерам, оптимизирующим инференс LLM-агентов.