Reddit
Что вы делаете с локальными LLM?
Автор делится опытом настройки мониторинга использования локальных LLM через LiteLLM, Prometheus и Grafana. Отмечает, что даже генерация кратких сводок в Frigate GenAI быстро расходует токены. Практический кейс по управлению затратами на инференс.
score 40r/LocalLLaMA