Назад к дайджесту
GitHub

Корпус классифицированных документов docx

GitHub-репозиторий, позиционируемый как крупнейший открытый набор документов формата docx. Материалы могут применяться для обучения моделей NLP, однако в описании отсутствует прямая связь с ИИ-инструментами или методами.

542 forksTypeScriptscore 55.4
machine-learningdocxdatasettypescriptword-documentscommon-crawldocument-processingcorpusbunnlp