Reddit
Проблема с повторной обработкой промптов в llama.cpp при использовании opencode и pi.dev
Пользователь столкнулся с частым перепроцессингом больших контекстов в llama.cpp, несмотря на схожесть запросов, что приводит к резкому росту времени генерации первого токена (TTFT). Он делится логами и конфигурацией, предполагая сбои в кэше KV или некорректной работе клиента opencode. Сообщество призывается поделиться настройками для оптимизации работы с длинным контекстом в кодинговых агентах.
score 31r/LocalLLaMA