Новость4 июня 2026 г.

Как и зачем мы создали собственный бенчмарк для OCR

Авторы столкнулись с проблемой выбора OCR-модели для RAG-пайплайна: стандартные бенчмарки не учитывали специфику русских документов, формул и таблиц, а также не коррелировали с качеством ответов чат-бота. В результате команда разработала собственный набор данных и метрики для оценки точности распознавания в реальных условиях. Статья описывает процесс создания инструмента и выводы по интеграции OCR в генеративные системы.

habr.comhttps://habr.com/ru/companies/cloud_ru/articles/1043144/?utm_campaign=1043144&utm_source=habrahabr&utm_medium=rss