Reddit29 апреля 2026 г.

ggml-cuda: добавлена поддержка flash-attn для DKQ=320/DV=256 с ncols2=32 (PR #22286 от lnigam в llama.cpp)

В библиотеку llama.cpp добавлена поддержка flash-аттенции в бэкенде ggml-cuda для специфических параметров тензоров. Это устраняет необходимость в CPU-фолбэке и ускоряет инференс модели Mistral Small 4 на GPU.

score 20r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1syfenw/ggmlcuda_add_flashattn_support_for_dkq320dv256/