Reddit
Qwen представила FlashQLA
Qwen выпустила FlashQLA — набор высокопроизводительных ядер линейного внимания на базе TileLang, обеспечивающий ускорение прямого прохода на 2–3 раза и обратного на 2 раза. Инструмент оптимизирован для агентов ИИ на персональных устройствах и использует автоматическое внутрикарточное CP с warp-specialized ядрами. Решение направлено на улучшение работы с длинными контекстами и малыми моделями в условиях ограниченной памяти.
score 100r/LocalLLaMA