Reddit
Все зациклены на скорости генерации токенов, но разве префилл не настоящий узкое место?
Автор поста утверждает, что на практике этап префилла (обработка промпта) часто становится главным узким местом, а не скорость генерации токенов. Это особенно актуально для агентных задач с большим контекстом, где ожидание обработки ввода занимает больше времени, чем вывод ответа. Вопрос поднимает дискуссию о приоритетах в оптимизации LLM и актуальности хайпа вокруг MTP.
score 44r/LocalLLaMA