Reddit
Gemma 4 и LiteRT-LM на мобильных: лучше производительность и меньше памяти, чем в llama.cpp
Автор поделился опытом запуска модели Gemma 4 на смартфонах через фреймворк LiteRT-LM. По сравнению с llama.cpp, решение потребляет значительно меньше памяти (1.5–2 ГБ против 4–5 ГБ) и работает быстрее, особенно на GPU. Несмотря на необходимость написания нативных модулей, метод позволяет эффективно использовать ИИ в edge-приложениях.
score 21r/LocalLLaMA