Назад к дайджесту
Reddit

Проблема с повторной обработкой промптов в llama.cpp при использовании opencode и pi.dev

Пользователь столкнулся с частым перепроцессингом больших контекстов в llama.cpp, несмотря на схожесть запросов, что приводит к резкому росту времени генерации первого токена (TTFT). Он делится логами и конфигурацией, предполагая сбои в кэше KV или некорректной работе клиента opencode. Сообщество призывается поделиться настройками для оптимизации работы с длинным контекстом в кодинговых агентах.

score 31r/LocalLLaMA