Назад к дайджесту
Reddit

[Статья про Hummingbird+: дешёвые FPGAs для инференса LLM] Qwen3-30B-A3B выдаёт 18 токенов/сек на 24 ГБ, массовая стоимость $150

Исследователи представили архитектуру Hummingbird+ на базе доступных FPGAs для эффективного инференса больших языковых моделей. На примере модели Qwen3-30B-A3B продемонстрирована скорость генерации 18 токенов в секунду при использовании 24 ГБ памяти. Ожидаемая стоимость массового производства таких аппаратных решений оценивается в 150 долларов.

score 86r/LocalLLaMA