Назад к дайджесту
Reddit

Корпус Usenet на 103 млрд токенов для предобучения LLM

Разработчик опубликовал датасет из 103 миллиардов токенов, собранных из архивов Usenet за период 1980–2013 годов. В наборе 408 миллионов постов, прошедших полную очистку, дедупликацию и редакцию конфиденциальных данных. Ресурс размещён на Hugging Face и представляет ценность для обучения моделей на естественном языке без искажений от современного контента.

score 32r/MachineLearning