Назад к дайджесту
Reddit

Это отличная новость...

В библиотеке llama.cpp одобрена поддержка MTP (Multi-Token Prediction). Это критически важная оптимизация для скорости генерации локальных LLM. Обновление ожидается в ближайшее время.

score 100r/LocalLLaMA