Назад к дайджесту
Reddit

OCR книг с помощью PaddleOCR-VL-1.5 и llama-server

Автор тестирует PaddleOCR-VL-1.5 через llama-server для распознавания текста на страницах книг. Метод справляется со сложными макетами и таблицами, позволяя оцифровывать книги в Markdown одним пайплайном. Предоставлен репозиторий с готовым скриптом для обработки папок с фото страниц.

score 48r/LocalLLaMA