Том 15, № 4Страницы 80 - 89

Method for Analyzing the Structure of Noisy Images of Administrative Documents

O.A. Slavin, E.L. Pliskin
Рассматривается задача извлечения из образа делового документа элементов заполнения (полей) с помощью описаний опорных элементов. Деловые документы содержат статические и переменные элементы (заполнение). Статичными объектами модели являются линии разграфки и слова текста. Описываются наборы объектов, объединенные свойствами и отношениями. Текстовый дескриптор может содержать атрибуты, позволяющие отличать его от сходных дескрипторов. Мы предлагаем применять комбинированные дескрипторы, состоящие из отрезков линий и слов. Экспериментально показано, что извлечение наборов объектов повышает точность распознавания полей документа на 17%, а точность извлечения информации из образа документа – на 16%. В качестве оптического распознавания символов в эксперименте использовалась система SDK Smart Document Engine.
Полный текст
Ключевые слова
зашумленный образ; распознавание документа; текстовая особая точка; дескриптор.
Литература
1. Rusinol M., Frinken V., Karatzas D., Bagdanov A.D., Llados J. Multimodal Page Classification Inadministrative Document Image Streams. International Journal on Document Analysis and Recognition, 2014, vol. 17, no. 4, pp. 331-341. DOI: 10.1007/s10032-014-0225-8
2. Jain R., Wigington C. Multimodal Document Image Classification. Document Analysis and Recognition, 2019, vol. 2019, pp.71-77. DOI: 10.1109/ICDAR.2019.00021
3. Qasim S.R., Mahmood H., Shafait F. Rethinking Table Recognition Using Graph Neural Networks. Computer Vision and Pattern Recognition, 2019, vol. 1, pp. 142-147. DOI: 10.1109/ICDAR.2019.00031
4. Bellavia F. SIFT Matching by Context Exposed. Transactions on Pattern Analysis and Machine Intelligence, 2022, vol. 2022, pp. 1-17. DOI: 10.1109/TPAMI.2022.3161853
5. Bay H., Tuytelaars T., Luc Van Goolab. Speeded-Up Robust Features (SURF). Computer Vision and Image Understanding, 2006, vol. 110, no. 3, pp. 404-417. DOI: 10.1016/j.cviu.2007.09.014
6. Slavin O., Andreeva E., Paramonov N. Matching Digital Copies of Documents Based on OCR. Control and Modeling Problems, 2019, vol. 2019, pp. 177-181. DOI: 10.1109/CSCMP45713.2019.8976570
7. Slavin O., Arlazarov V., Tarkhanov I. Models and Methods Flexible Documents Matching Based on the Recognized Words. Cyber-Physical Systems: Advances in Design and Modelling, 2021, vol. 350, pp. 173-184. DOI: 10.1007/978-3-030-67892-0_15
8. Deza M.M., Deza E. Encyclopedia of Distances. Berlin, Springer-Verlag, 2009.
9. Matas J., Galambos C., Kittler J. Robust Detection of Lines Using the Progressive Probabilistic Hough Transform. Computer Vision and Image Understanding, 2000, vol. 78, issue 1, pp. 119-137. DOI: 10.1006/cviu.1999.0831
10. Grompone von Gioi R., Jakubowicz J., Morel J.M. On Straight Line Segment Detection. Journal of Mathematical Imaging and Vision, 2008, vol. 32, pp. 313-347. DOI: 10.1007/s10851-008-0102-5
11. Grompone von Gioi R., Jakubowicz J., Morel J.M., Randall G. LSD: A Fast Line Segment Detector with a False Detection Control. Transactions on Pattern Analysis and Machine Intelligence, 2010, vol. 32, issue 4, pp. 722-732. DOI: 10.1109/TPAMI.2008.300
12. Emaletdinova L., Nazarov M. Construction of a Fuzzy Model for Contour Selection. Studies in Systems, Decision and Control, 2022, vol. 417, pp. 243-246. DOI: 10.1007/978-3-030-95116-0_20
13. Zlobin P., Chernyshova Y., Sheshkus A., Arlazarov V.V. Character Sequence Prediction Method for Training Data Creation in the Task of Text Recognition. Machine Vision, 2021, vol. 2021, article ID: 120840, 10 p. DOI: 10.1117/12.2623773
14. Matalov D., Usilin S., Arlazarov V.V. About Viola-Jones Image Classifier Structure in the Problem of Stamp Detection in Document Images. Machine Vision, 2021, vol. 2021, article ID: 11605, 16 p. DOI: 10.1117/12.2586842
15. Arlazarov V., Voysyat Ju.S., Matalov D., Nikolaev D., Usilin S.A. Evolution of the Viola-Jones Object Detection Method: A Survey. Bulletin of the South Ural State University. Mathematical Modelling, Programming and Computer Software, 2021, vol. 14, no. 4, pp. 5-23. DOI: 10.14529/mmp210401
16. Roy P.P., Pal U., Llados J. Seal Detection and Recognition: An Approach for Document Indexing. Document Analysis and Recognition, 2015, vol. 2015, article ID: 367879, 15 p. DOI: 10.1109/ICDAR.2009.128
17. Katsuhiko U. Extraction of Signature ad Seal Imprint from Bankchecks by Using Color Information. Document Analysis and Recognition, 1995, vol. 1995, pp. 665-668. DOI: 10.1109/ICDAR.1995.601983
18. Matalov D., Usilin S., Arlazarov V.V. Modification of the Viola-Jones Approach for the Detection of the Government Seal Stamp of the Russian Federation. Machine Vision, 2019, vol. 2019, article ID: 10411, 11 p. DOI: 10.1117/12.2522793
19. Marchenko A.E., Ershov E.I., Gladilin S.A. The System for Parsing a Document Specified by Attributes of Structural Elements and the Rrelations between Structural Elements. Trudy ISA RAN, 2017, vol. 67, no. 4, pp. 87-97. (in Russian)