Reddit6 мая 2026 г.

Разделение внимания и весов для Gemma 4 26B

Автор предлагает технику запуска локальных LLM, разделяя вычисление внимания и веса модели между разными устройствами. Это позволяет обойти ограничения памяти и запустить модель Gemma 4 26B без мощного GPU. В посте доступен рабочий код и видеообзор реализации.

score 47r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1t5ap0y/decoupled_attention_from_weights_gemma_4_26b/