Reddit
QuickTok: более быстрый токенизатор с полной совместимостью с tiktoken
Разработчик представил библиотеку на C++ для токенизации, которая обеспечивает побайтовую идентичность с tiktoken, но работает в 4–11 раз быстрее. Инструмент поддерживает стандартные словари (cl100k, o200k) и модели Llama-3, Qwen2.5, оптимизируя процесс предобработки текста для LLM.
score 40r/MachineLearning