Reddit3 мая 2026 г.

Невероятные времена: от 1 токена/сек до 100 для огромных моделей

Пост описывает феноменальный рост скорости работы локальных LLM: если раньше Llama 405b выдавала 1.2 токена в секунду, то сейчас на том же оборудовании работают модели вроде Qwen и Deepseek со скоростью до 100 токенов/сек. Автор отмечает, что квантование и оптимизация позволили запускать сверхмощные модели на домашнем железе, делая их доступными для энтузиастов. Это подтверждает, что эксперименты с локальным запуском моделей окупаются быстрым прогрессом в инференсе.

score 25r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1t2s7ik/what_a_time_to_be_alive_from_1tksec_to_20100tksec/