Новость
Как и зачем мы создали собственный бенчмарк для OCR
Авторы столкнулись с проблемой выбора OCR-модели для RAG-пайплайна: стандартные бенчмарки не учитывали специфику русских документов, формул и таблиц, а также не коррелировали с качеством ответов чат-бота. В результате команда разработала собственный набор данных и метрики для оценки точности распознавания в реальных условиях. Статья описывает процесс создания инструмента и выводы по интеграции OCR в генеративные системы.