Reddit
Как смягчить падение производительности при увеличении контекста?
Пользователь локального LLM-сетапа жалуется на падение скорости генерации токенов по мере роста контекста. Он использует llama.cpp с GPU (MI50/V100) и ищет флаги оптимизации или практики для сохранения производительности без перезапуска сессии. Вопрос затрагивает важные аспекты инференса и управления контекстом в реальных приложениях.
score 17r/LocalLLaMA