Том 19, № 2Страницы 65 - 74

Разработка OCR-модели для распознавания текста на мансийском языке

А.В. Мельников, И.С. Веретенников, В.Ю. Полищук, М.А. Русанов, С.Н. Шергин

В статье рассматривается проблема разработки системы оптического распознавания символов (OCR) для мансийского языка - малоресурсного финно-угорского языка с уникальным набором диакритических знаков. Основная задача исследования заключается в адаптации существующих OCR-технологий к специфике мансийской письменности, характеризующейся ограниченным объемом оцифрованных текстов и наличием специфических графических символов. Для решения этой задачи был разработан комплексный подход, включающий генерацию обширного синтетического набора данных с учетом вариативности шрифтов и нормализации Unicode, дообучение модели Tesseract 5 методом трансферного обучения на базе предобученной русскоязычной модели, а также оценку качества распознавания с использованием метрик CER и WER. В результате была получена специализированная модель, демонстрирующая значение метрики CER на уровне 0,85%, что в двадцать раз превосходит результаты базовой модели (18,5%). Разработанная модель реализована в виде публичного веб-сервиса и размещена в открытом доступе, что обеспечивает возможность автоматизированной оцифровки печатных источников на мансийском языке и способствует сохранению культурного наследия коренных народов Севера.

Полный текст

Ключевые слова: языковые модели; нейронные сети; оптическое распознавание символов; мансийский язык; набор данных.
Литература: 1. Agarwal, M. A Concise Survey of OCR for Low-Resource Languages / M. Agarwal, A. Anastasopoulos // Proceedings of the 4th Workshop on Natural Language Processing for Indigenous Languages of the Americas. - 2024. - P. 88-102.
2. Kashid, H. RoundTripOCR: A Data Generation Technique for Enhancing Post-OCR Error Correction in Low-Resource Devanagari Languages / H. Kashid, P. Bhattacharyya // Proceedings of the 21st International Conference on Natural Language Processing. NLP Association of India. - 2024. - P. 274-284.
3. Ignat, O. OCR Improves Machine Translation for Low-Resource Languages / O. Ignat, J. Maillard, V. Chaudhary, F. Guzman // Findings of the Association for Computational Linguistics. - 2022. - P. 1164-1174.
4. Low-Resource Language OCR: New Possibilities with AI // Sunway University. - URL: https://sunway.edu.np/low-resource-language-ocr-automation/ (дата обращения: 25.01.2026)
5. Drobac, S. OCR and Post-Correction of Historical Finnish Texts / S. Drobac, P. Kauppinen, K. Linden // Proceedings of the 21st Nordic Conference on Computational Linguistics. - 2017. - P. 70-76.
6. Tesseract User Manual: Tesseract Documentation // GitHub. - URL: https://tesseract-ocr.github.io/tessdoc/Home.html (дата обращения: 25.01.2026)
7. Unicode Normalization Forms. - URL: https://unicode.org/reports/tr15/ (дата обращения: 26.01.2026)
8. Keren, G. Convolutional RNN: an Enhanced Model for Extracting Features from Sequential Data / G. Keren, B. Schuller // arXiv. Computation and Language. - URL: https://arxiv.org/abs/1602.05875 (дата обращения: 25.01.2026)
9. Sequence Modeling With CTC. - URL: https://distill.pub/2017/ctc/ (дата обращения: 24.01.2026)
10. Tesseract-Ocr // GitHub. - URL: https://github.com/tesseract-ocr (дата обращения: 26.01.2026)
11. Sinno Jialin Pan. A Survey on Transfer Learning / Sinno Jialin Pan, Qiang Yang // IEEE Transactions on Knowledge and Data Engineering. - 2010. - V. 22, № 10. - P. 1345-1359.
12. CS231n Deep Learning for Computer Vision. Introduction to RNN. - URL: https://cs231n.github.io/rnn/ (дата обращения: 17.03.2026)
13. Deep Learning: an MIT Press Book. - URL: https://www.deeplearningbook.org/ (дата обращения: 17.03.2026)
14. Raskutti, G. Early Stopping for Non-Parametric Regression: An Optimal Data-Dependent Stopping Rule / G. Raskutti, M.J. Wainwright, Bin Yu // 2011 49th Annual Allerton Conference on Communication, Control, and Computing. - Monticello; IL, 2011. - P. 1318-1325.
15. Evaluating AI Models: Understanding the Character Error Rate (CER) Metric. - URL: https://galileo.ai/blog/character-error-rate-cer-metric (дата обращения: 24.01.2026).
16. Yakubovskyi, R. Speech Models Training Technologies Comparison Using Word Error Rate / R. Yakubovskyi, Yu. Morozov // Advances in Cyber-Physical Systems. - 2023. - V. 8, № 1. - P. 74-80.
17. URIIT/mns-tesseract. - URL: https://huggingface.co/URIIT/mns-tesseract (дата обращения: 26.01.2026)