Reddit
Какая минимальная скорость (токенов/сек) приемлема для локальных AI-агентов?
Пользователь тестирует локальные агенты через pi.dev и llama.cpp с моделью Qwen3.6-27B на RTX A6000, получая 26 токенов в секунду. Он сравнивает этот опыт с облачным Claude Code и спрашивает сообщество о пороге задержки, при котором работа с агентами остаётся комфортной.
score 34r/LocalLLaMA