Назад к дайджесту
Reddit

Как смягчить падение производительности при увеличении контекста?

Пользователь локального LLM-сетапа жалуется на падение скорости генерации токенов по мере роста контекста. Он использует llama.cpp с GPU (MI50/V100) и ищет флаги оптимизации или практики для сохранения производительности без перезапуска сессии. Вопрос затрагивает важные аспекты инференса и управления контекстом в реальных приложениях.

score 17r/LocalLLaMA