Reddit
ggml-cuda: добавлена поддержка flash-attn для DKQ=320/DV=256 с ncols2=32 (PR #22286 от lnigam в llama.cpp)
В библиотеку llama.cpp добавлена поддержка flash-аттенции в бэкенде ggml-cuda для специфических параметров тензоров. Это устраняет необходимость в CPU-фолбэке и ускоряет инференс модели Mistral Small 4 на GPU.
score 20r/LocalLLaMA