Назад к дайджесту
Reddit

Что вы делаете с локальными LLM?

Автор делится опытом настройки мониторинга использования локальных LLM через LiteLLM, Prometheus и Grafana. Отмечает, что даже генерация кратких сводок в Frigate GenAI быстро расходует токены. Практический кейс по управлению затратами на инференс.

score 40r/LocalLLaMA