Reddit
Невероятные времена: от 1 токена/сек до 100 для огромных моделей
Пост описывает феноменальный рост скорости работы локальных LLM: если раньше Llama 405b выдавала 1.2 токена в секунду, то сейчас на том же оборудовании работают модели вроде Qwen и Deepseek со скоростью до 100 токенов/сек. Автор отмечает, что квантование и оптимизация позволили запускать сверхмощные модели на домашнем железе, делая их доступными для энтузиастов. Это подтверждает, что эксперименты с локальным запуском моделей окупаются быстрым прогрессом в инференсе.
score 25r/LocalLLaMA