Reddit
Локальные LLM для автодополнения и агентов на 16 ГБ видеопамяти
Автор описывает настройку локального кодингового стека на базе моделей Qwen2.5 и Qwen3.6 через llama.cpp с использованием квантования GGUF. Система работает на видеокарте с 16 ГБ VRAM за счёт выгрузки части модели в оперативную память, обеспечивая мгновенное автодополнение и работу агента. Приведены конкретные параметры запуска и метрики скорости генерации токенов.
score 31r/LocalLLaMA