Том 18, № 3Страницы 87 - 95

Использование нечеткого сравнения строк при решении задачи автоматического переноса форматирования поэтических произведений

Н.Н. Тесля, Г.Н. Беляк
Создание научно-просветительского ресурса "Пушкин Цифровой" связано с необходимостью верстки стихотворных текстов на основе информации о верстке из других изданий. От издания к изданию тексты могут отличаться, и в каждом случае верстка осуществляется заново по правилам данного издания. Ручная верстка требует внимательности и существенных временных и трудовых затрат от специалиста, поскольку требуется сравнить несколько одинаковых текстов в нескольких изданиях. Представленный метод решает две задачи. Во-первых, определяется, насколько отличаются тексты в изданиях, обеспечивая возможность оценить количество ошибок или намеренных трансформаций текста, что является отдельным предметом исследования текстологов. Во-вторых, на основе оценки различия строк и нечеткого их сопоставления формируются правила верстки для каждой строки с учетом того, какие правила используются в ранних изданиях. Метод опробован на 914 текстах лирических произведений А.С. Пушкина, обеспечив корректный полный перенос верстки для 74,55% текстов, тогда как для 25,45% этого сделать не удалось и пришлось прибегнуть к ручной верстке.
Полный текст
Ключевые слова
нечеткое сравнение строк; расстояние Левенштейна; форматирование; обработка текста.
Литература
1. Пушкин, А.С. Полное собрание сочинений: В 16 т. / А.С. Пушкин. - М.: Изд-во академии Наук СССР, 1937-1959.
2. Пушкин, А.С. Полное собрание сочинений: В 20 т. / А.С. Пушкин. - СПб.: Наука, 1999.
3. Jiapeng Wang. Measurement of Text Similarity: a Survey / Jiapeng Wang, Yihong Dong // Information. - 2020. - V. 11, № 9. - Article ID: 421. - 17 p.
4. Rani, S. Enhancing Levenshtein's Edit Distance Algorithm for Evaluating Document Similarity / S. Rani, J. Singh // Computing, Analytics and Networks: First International Conference (ICAN 2017). - Chandigarh, 2018. - P. 72-80.
5. Pikies, M. Analysis and Safety Engineering of Fuzzy String Matching Algorithms / M. Pikies, J. Ali // ISA Transactions. - 2021. - V. 113. - P. 1-8.
6. Kenter, T. Short Text Similarity with Word Embeddings / T. Kenter, M. De Rijke // Proceedings of the 24th ACM International on Conference on Information and Knowledge Management. - 2015. - P. 1411-1420.
7. Mikolov, T. Efficient Estimation of Word Representations in Vector Space / T. Mikolov, Kai Chen, G. Corrado, J. Dean // arXiv: Computation and Language. - 2013. - URL: https://arxiv.org/abs/1301.3781
8. Thada, V. Comparison of Jaccard, Dice, Cosine Similarity Coefficient to Find Best Fitness Value for Web Retrieved Documents using Genetic Algorithm / V. Thada, V. Jaglan // International Journal of Innovations in Engineering and Technology. - 2013. - V. 2, № 4. - P. 202-205.
9. Patricoski, J. An Evaluation of Pretrained BERT Models for Comparing Semantic Similarity across Unstructured Clinical Trial Texts / J. Patricoski-Chavez, K. Kreimeyer, A. Balan, K. Hardart et al. // Informatics and Technology in Clinical Care and Public Health. - 2022. - P. 18-21.
10. Neculoiu, P. Learning Text Similarity with Siamese Recurrent Networks / P. Neculoiu, M. Versteegh, M. Rotaru // Proceedings of the 1st Workshop on Representation Learning for NLP. - 2016. - P. 148-157.
11. Amin, K. Advanced Similarity Measures Using Word Embeddings and Siamese Networks in CBR / K. Amin, G. Lancaster, S. Kapetanakis et al. // Intelligent Systems and Applications: Proceedings of the 2019 Intelligent Systems Conference. - 2020. - P. 449-462.
12. Reimers, N. Sentence-BERT: Sentence Embeddings Using Siamese BERT-Networks / N. Reimers, I. Gurevych // arXiv: Computation and Language. - 2019. - URL: https://arxiv.org/abs/1908.10084
13. Thefuzz - Fuzzy String Matching in Python. - URL:https://github.com/seatgeek/thefuzz
14. Пушкин, А.С. Простишь ли мне ревнивые мечты... / А.С. Пушкин // Полное собрание сочинений: В 16 т. - Т. 2, кн. 1. Стихотворения, 1817-1825. Лицейские стихотворения в позднейших редакциях. - М.; Л.: Издательство АН СССР. - 1947. - С. 300-301.
15. Пушкин, А.С. Простишь ли мне ревнивые мечты... / А.С. Пушкин // Полное собрание сочинений: В 20 т. - Т. 2, кн. 2. - СПб: Наука. - 2016. - С. 91-92.