№ 27 (286), выпуск 13Страницы 119 - 127

Распределенная инструментальная среда словарного морфологического анализа для обработки русского языка

Д.А. Усталов, М.Л. Гольдштейн
В статье рассмотрен подход к масштабированию сервиса морфологического разбора слов естественного языка при обработке различных коллекций документов на русском языке. Выполнен обзор и критический анализ существующих решений. Сформированы требования к инструментальной среде словарного морфологического анализатора. Распределенная архитектура Web-сервиса морфологического анализа, предназначенного для обработки крупных коллекций документов на русском языке, представлена в виде структурной модели. Данная архитектура реализована в виде прототипа системы на языке программирования Ruby. Приведена структура используемого морфологического словаря в виде реляционной схемы. Испытания данного метода в распределенной вычислительной среде показали линейную масштабируемость предлагаемого решения. Конфигурация эксперимента включает систему генерации нагрузки в виде HTTP-запросов, систему балансировки нагрузки на рабочие узлы распределенной системы, серверы приложений с функционирующим анализатором и базу данных морфологического словаря, а также кэширующий узел для снижения издержек при выполнении запросов к словарю. Применение данного подхода позволяет получить линейный рост производительности в распределенных системах автоматической обработки больших объемов текста.
Полный текст
Ключевые слова
распределенные вычисления, обработка естественного языка, корпусная лингвистика, обработка больших объемов данных, морфологический анализ.
Литература
1. Корпусная лингвистика. [Электронный ресурс] // [сайт]. URL: http://www.corpling-ran.ru/index.html (дата обращения 20.05.2012).
2. GATE Cloud - a New Way to Mine the Web. [Электронный ресурс] // [сайт]. URL: http://gatecloud.net (дата обращения 20.05.2012).
3. Система менеджмента качества, оперативный контроль и анализ образовательного процесса / А.Л. Шестаков, А.И. Сидоров, Л.А. Шефер, Е.В. Гичкина // Вестн. Ленинград. гос. ун-та имени А.С. Пушкина. - 2009. - № 1. - С. 177-194.
4. mystem [Электронный ресурс] // [сайт]. URL: http://company.yandex.ru/technologies/mystem (дата обращения 20.05.2012).
5. Snowball [Электронный ресурс] // [сайт]. URL: http://snowball.tartarus.org (дата обращения 20.05.2012).
6. Stemka [Электронный ресурс] // [сайт]. URL: http://www.keva.ru/stemka/stemka.html (дата обращения 20.05.2012).
7. Gearman [Электронный ресурс] // [сайт]. URL: http://gearman.org (дата обращения 20.05.2012).
8. Erjavec, T. MULTEXT-East Version 4: Multilingual Morphosyntactic Specifications, Lexicons and Corpora / T. Erjavec // Proceedings of the 8th International Conference on Language Resources and Evaluation, LREC'10. - Malta.- 2010. - С. 2544-2547.
9. Myaso [Электронный ресурс] // [сайт]. URL: http://myaso.eveel.ru (дата обращения 20.05.2012).
10. АОТ :: Технологии [Электронный ресурс] // [сайт]. URL: http://aot.ru/technology.html (дата обращения 20.05.2012).
11. Segalovich, I. A fast morphological algorithm with unknown word guessing induced by a dictionary for a web search engine / I. Segalovich // Proceedings of the International Conference on Machine Learning; Models, Technologies and Applications. MLMTA'03. - Las Vegas.- 2003. - С. 273-280.
12. HAProxy - The Reliable, High Performance TCP/HTTP Load Balancer [Электронный ресурс] // [сайт]. URL: http://haproxy.1wt.eu (дата обращения 20.05.2012).
13. Коллекция блог-записей [Электронный ресурс] // [сайт]. URL: http://plove.eveel.ru (дата обращения 20.05.2012).
14. Tokyo Cabinet: a modern implementation of DBM [Электронный ресурс] // [сайт]. URL: http://fallabs.com/tokyocabinet (дата обращения 20.05.2012).
15. Memcached - a distributed memory object caching system [Электронный ресурс] // [сайт]. URL: http://memcached.org (дата обращения 20.05.2012).
16. Программные средства. Национальный корпус русского языка [Электронный ресурс] // [сайт]. URL: http://www.ruscorpora.ru/corpora-progr.html (дата обращения 20.05.2012).