Назад к дайджесту
Reddit

Локальные LLM для автодополнения и агентов на 16 ГБ видеопамяти

Автор описывает настройку локального кодингового стека на базе моделей Qwen2.5 и Qwen3.6 через llama.cpp с использованием квантования GGUF. Система работает на видеокарте с 16 ГБ VRAM за счёт выгрузки части модели в оперативную память, обеспечивая мгновенное автодополнение и работу агента. Приведены конкретные параметры запуска и метрики скорости генерации токенов.

score 31r/LocalLLaMA