Reddit25 апреля 2026 г.

Какая минимальная скорость (токенов/сек) приемлема для локальных AI-агентов?

Пользователь тестирует локальные агенты через pi.dev и llama.cpp с моделью Qwen3.6-27B на RTX A6000, получая 26 токенов в секунду. Он сравнивает этот опыт с облачным Claude Code и спрашивает сообщество о пороге задержки, при котором работа с агентами остаётся комфортной.

score 34r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1svaat8/what_do_you_consider_to_be_the_minimum/