Reddit
Это отличная новость...
В библиотеке llama.cpp одобрена поддержка MTP (Multi-Token Prediction). Это критически важная оптимизация для скорости генерации локальных LLM. Обновление ожидается в ближайшее время.
score 100r/LocalLLaMA
В библиотеке llama.cpp одобрена поддержка MTP (Multi-Token Prediction). Это критически важная оптимизация для скорости генерации локальных LLM. Обновление ожидается в ближайшее время.