Назад к дайджесту
Reddit

Gemma 4 и LiteRT-LM на мобильных: лучше производительность и меньше памяти, чем в llama.cpp

Автор поделился опытом запуска модели Gemma 4 на смартфонах через фреймворк LiteRT-LM. По сравнению с llama.cpp, решение потребляет значительно меньше памяти (1.5–2 ГБ против 4–5 ГБ) и работает быстрее, особенно на GPU. Несмотря на необходимость написания нативных модулей, метод позволяет эффективно использовать ИИ в edge-приложениях.

score 21r/LocalLLaMA