Preview

Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация

Расширенный поиск

НОВЫЙ КОМПЛЕКС ИНСТРУМЕНТОВ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ТЕКСТА ДЛЯ ПЛАТФОРМЫ TXM И ЕГО АПРОБАЦИЯ НА КОРПУСЕ ДЛЯ АНАЛИЗА ЭКСТРЕМИСТСКИХ ТЕКСТОВ

https://doi.org/10.25205/1818-7935-2018-16-3-19-31

Аннотация

Платформа TXM предоставляет широкие возможности корпусного анализа, такие как анализ соответствий, кластеризация, построение лексических таблиц, поиск сложных лексических конструкций, выделение подкорпусов по различным параметрам. По умолчанию платформа работает со словоупотреблениями в качестве структурных единиц анализа. Она интегрирована с единственным расширением TreeTagger, позволяющим проводить лишь морфологический анализ и лемматизацию словоупотреблений. Однако пользователь может сопроводить каждое словоупотребление набором дополнительных характеристик, позволяющих существенно усложнить анализ, сделать его более гибким. В настоящей работе описывается разработанный нами набор утилит, позволяющий, опираясь как на наши собственные программные решения, так и на готовые средства анализа, расширить и усложнить анализ корпусов в платформе TXM. Особого внимания заслуживают выделение псевдоосновы в словах текста с использованием метода структурных схем и выявление именных групп в структуре текста. Эти расширения позволяют повысить эффективность таких используемых TXM методов, как анализ специфичности и анализ соответствий. В порядке апробации излагаются результаты эксперимента по анализу корпуса, содержащего тексты, оцененные экспертами как экстремистские, и «нейтральные» тексты схожей тематики (религия, политика, идеология). Все тесты показывают ярко выраженное противостояние нейтральных и маркированных текстов и позволяют на основе полученных результатов продолжить работу по автоматическому и полуавтоматическому выявлению потенциально противоправных текстов.

Об авторах

А. М. Лаврентьев
Институт истории представлений и идей нового времени НЦНИ и Высшей нормальной школы Лиона
Россия


Ф. Н. Соловьев
Институт физико-технической информатики
Россия


М. И. Суворова
Федеральный исследовательский центр «Информатика и управление» РАН
Россия


А. И. Фокина
Национальный исследовательский университет «Высшая школа экономики»
Россия


А. М. Чеповский
Национальный исследовательский университет «Высшая школа экономики»
Россия


Список литературы

1. Ананьева М. И., Кобозева М. В., Соловьев Ф. Н., Поляков И. В., Чеповский А. М. О проблеме выявления экстремистской направленности в текстах // Вестн. НГУ. Серия: Информационные технологии. 2016. Т. 14, № 4. С. 5-13.

2. Ананьева М. И., Девяткин Д. А., Кобозева М. В., Смирнов И. В., Соловьев Ф. Н., Чеповский А. М. Исследование характеристик текстов противоправного содержания // Тр. Ин-та системного анализа РАН. 2017. Т. 67, № 3. С. 86-97.

3. Белоногов Г. Г., Богатырёв В. И. Автоматизированные информационные системы. М.: Сов. радио, 1973.

4. Болховитянов А. В., Чеповский А. М. Методы автоматического анализа словоформ // Информационные технологии. 2011. № 4 (176). С. 24-29.

5. Зализняк А. А. Грамматический словарь русского языка. М.: Русский язык, 1977.

6. Чеповский А. М. Информационные модели в задачах обработки текстов на естественных языках. 2-е изд., перераб. М.: Национальный открытый университет «ИНТУИТ», 2015.

7. Benzécri J.-P. L’analyse des données: l’analyse des correspondances. 2nd ed. Paris: Dunod, 1979. Vol. 2.

8. Egorova E., Chepovskiy A., Lavrentiev A. A structural pattern based method for automated morphological analysis of word forms in a natural language // Journal of Mathematical Sciences. 2016. Vol. 214. No. 6. P. 802-813.

9. Heiden S. The TXM Platform: Building Open-Source Textual Analysis Software Compatible with the TEI Encoding Scheme // 24th Pacific Asia Conference on Language, Information and Computation - PACLIC24 / Eds. R. Otoguro, K. Ishikawa, H. Umemoto, K. Yoshimoto, Y. Harada. Institute for Digital Enhancement of Cognitive Development. Sendai, Japan: Waseda University, 2010. P. 389-398.

10. Lafon P. Sur la variabilité de la fréquence des formes dans un corpus // Mots. 1980. № 1. P. 127-165.

11. Lê S., Josse J., & Husson F. FactoMineR: an R package for multivariate analysis // Journal of Statistical Software. 2008. № 25 (1) P. 1-18.

12. Schmid H. Probabilistic Part-of-Speech Tagging Using Decision Trees // Proceedings of International Conference on New Methods in Language Processing. Manchester, UK. 1994. URL: http://www.cis.uni-muenchen.de/sschmid/tools/TreeTagger/data/tree-tagger1.pdf


Рецензия

Для цитирования:


Лаврентьев А.М., Соловьев Ф.Н., Суворова М.И., Фокина А.И., Чеповский А.М. НОВЫЙ КОМПЛЕКС ИНСТРУМЕНТОВ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ТЕКСТА ДЛЯ ПЛАТФОРМЫ TXM И ЕГО АПРОБАЦИЯ НА КОРПУСЕ ДЛЯ АНАЛИЗА ЭКСТРЕМИСТСКИХ ТЕКСТОВ. Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация. 2018;16(3):19-31. https://doi.org/10.25205/1818-7935-2018-16-3-19-31

For citation:


Lavrentiev A.M., Solovyev F.N., Suvorova M.I., Fokina A.I., Chepovskiy A.M. A NEW TOOLKIT FOR NATURAL TEXT PROCESSING WITH THE TXM PLATFORM AND ITS APPLIСATION TO A CORPUS FOR ANALYSIS OF TEXTS PROPAGATING EXTREMIST VIEWS. NSU Vestnik. Series: Linguistics and Intercultural Communication. 2018;16(3):19-31. (In Russ.) https://doi.org/10.25205/1818-7935-2018-16-3-19-31

Просмотров: 240


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1818-7935 (Print)