Reddit
Поддержка MTP добавлена в llama.cpp
В библиотеку llama.cpp добавлена поддержка Multi-Token Prediction (MTP). Это позволяет ускорить инференс LLM, предсказывая несколько токенов за один шаг генерации.
score 100r/LocalLLaMA
В библиотеку llama.cpp добавлена поддержка Multi-Token Prediction (MTP). Это позволяет ускорить инференс LLM, предсказывая несколько токенов за один шаг генерации.