Reddit2 мая 2026 г.

Корпус Usenet на 103 млрд токенов для предобучения LLM

Разработчик опубликовал датасет из 103 миллиардов токенов, собранных из архивов Usenet за период 1980–2013 годов. В наборе 408 миллионов постов, прошедших полную очистку, дедупликацию и редакцию конфиденциальных данных. Ресурс размещён на Hugging Face и представляет ценность для обучения моделей на естественном языке без искажений от современного контента.

score 32r/MachineLearning

reddit.comhttps://www.reddit.com/r/MachineLearning/comments/1t10xaf/i_spent_years_building_a_103btoken_usenet_corpus/