Reddit3 мая 2026 г.

[Статья про Hummingbird+: дешёвые FPGAs для инференса LLM] Qwen3-30B-A3B выдаёт 18 токенов/сек на 24 ГБ, массовая стоимость $150

Исследователи представили архитектуру Hummingbird+ на базе доступных FPGAs для эффективного инференса больших языковых моделей. На примере модели Qwen3-30B-A3B продемонстрирована скорость генерации 18 токенов в секунду при использовании 24 ГБ памяти. Ожидаемая стоимость массового производства таких аппаратных решений оценивается в 150 долларов.

score 86r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1t2kpzn/paper_on_hummingbird_lowcost_fpgas_for_llm/