GitHub
Корпус классифицированных документов docx
GitHub-репозиторий, позиционируемый как крупнейший открытый набор документов формата docx. Материалы могут применяться для обучения моделей NLP, однако в описании отсутствует прямая связь с ИИ-инструментами или методами.
542 forksTypeScriptscore 55.4
machine-learningdocxdatasettypescriptword-documentscommon-crawldocument-processingcorpusbunnlp