A NEW TOOLKIT FOR NATURAL TEXT PROCESSING WITH THE TXM PLATFORM AND ITS APPLIСATION TO A CORPUS FOR ANALYSIS OF TEXTS PROPAGATING EXTREMIST VIEWS
https://doi.org/10.25205/1818-7935-2018-16-3-19-31
Abstract
About the Authors
A. M. LavrentievRussian Federation
F. N. Solovyev
Russian Federation
M. I. Suvorova
Russian Federation
A. I. Fokina
Russian Federation
A. M. Chepovskiy
Russian Federation
References
1. Ананьева М. И., Кобозева М. В., Соловьев Ф. Н., Поляков И. В., Чеповский А. М. О проблеме выявления экстремистской направленности в текстах // Вестн. НГУ. Серия: Информационные технологии. 2016. Т. 14, № 4. С. 5-13.
2. Ананьева М. И., Девяткин Д. А., Кобозева М. В., Смирнов И. В., Соловьев Ф. Н., Чеповский А. М. Исследование характеристик текстов противоправного содержания // Тр. Ин-та системного анализа РАН. 2017. Т. 67, № 3. С. 86-97.
3. Белоногов Г. Г., Богатырёв В. И. Автоматизированные информационные системы. М.: Сов. радио, 1973.
4. Болховитянов А. В., Чеповский А. М. Методы автоматического анализа словоформ // Информационные технологии. 2011. № 4 (176). С. 24-29.
5. Зализняк А. А. Грамматический словарь русского языка. М.: Русский язык, 1977.
6. Чеповский А. М. Информационные модели в задачах обработки текстов на естественных языках. 2-е изд., перераб. М.: Национальный открытый университет «ИНТУИТ», 2015.
7. Benzécri J.-P. L’analyse des données: l’analyse des correspondances. 2nd ed. Paris: Dunod, 1979. Vol. 2.
8. Egorova E., Chepovskiy A., Lavrentiev A. A structural pattern based method for automated morphological analysis of word forms in a natural language // Journal of Mathematical Sciences. 2016. Vol. 214. No. 6. P. 802-813.
9. Heiden S. The TXM Platform: Building Open-Source Textual Analysis Software Compatible with the TEI Encoding Scheme // 24th Pacific Asia Conference on Language, Information and Computation - PACLIC24 / Eds. R. Otoguro, K. Ishikawa, H. Umemoto, K. Yoshimoto, Y. Harada. Institute for Digital Enhancement of Cognitive Development. Sendai, Japan: Waseda University, 2010. P. 389-398.
10. Lafon P. Sur la variabilité de la fréquence des formes dans un corpus // Mots. 1980. № 1. P. 127-165.
11. Lê S., Josse J., & Husson F. FactoMineR: an R package for multivariate analysis // Journal of Statistical Software. 2008. № 25 (1) P. 1-18.
12. Schmid H. Probabilistic Part-of-Speech Tagging Using Decision Trees // Proceedings of International Conference on New Methods in Language Processing. Manchester, UK. 1994. URL: http://www.cis.uni-muenchen.de/sschmid/tools/TreeTagger/data/tree-tagger1.pdf
Review
For citations:
Lavrentiev A.M., Solovyev F.N., Suvorova M.I., Fokina A.I., Chepovskiy A.M. A NEW TOOLKIT FOR NATURAL TEXT PROCESSING WITH THE TXM PLATFORM AND ITS APPLIСATION TO A CORPUS FOR ANALYSIS OF TEXTS PROPAGATING EXTREMIST VIEWS. NSU Vestnik. Series: Linguistics and Intercultural Communication. 2018;16(3):19-31. (In Russ.) https://doi.org/10.25205/1818-7935-2018-16-3-19-31