Reddit15 мая 2026 г.

Gemma 4 и LiteRT-LM на мобильных: лучше производительность и меньше памяти, чем в llama.cpp

Автор поделился опытом запуска модели Gemma 4 на смартфонах через фреймворк LiteRT-LM. По сравнению с llama.cpp, решение потребляет значительно меньше памяти (1.5–2 ГБ против 4–5 ГБ) и работает быстрее, особенно на GPU. Несмотря на необходимость написания нативных модулей, метод позволяет эффективно использовать ИИ в edge-приложениях.

score 21r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1tdvqpw/gemma_4_litertlm_on_mobile_much_better_memoryperf/