Reddit15 мая 2026 г.

Проблема с повторной обработкой промптов в llama.cpp при использовании opencode и pi.dev

Пользователь столкнулся с частым перепроцессингом больших контекстов в llama.cpp, несмотря на схожесть запросов, что приводит к резкому росту времени генерации первого токена (TTFT). Он делится логами и конфигурацией, предполагая сбои в кэше KV или некорректной работе клиента opencode. Сообщество призывается поделиться настройками для оптимизации работы с длинным контекстом в кодинговых агентах.

score 31r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1td9stc/llamacpp_constantly_reprocessing_huge_prompts/