Preview

Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация

Расширенный поиск

Сравнение тематических моделей на основе LDA, STM и NMF для качественного анализа русской художественной прозы малой формы

https://doi.org/10.25205/1818-7935-2022-20-2-93-109

Аннотация

Описываются результаты тематического моделирования малой художественной прозы на основе трех методов – латентного размещения Дирихле (LDA), структурного тематического моделирования (STM) и неотрицательной матричной факторизации (NMF) – в сочетании с разными вариантами предобработки текстов (все части речи vs только существительные). Апробация экспериментального дизайна осуществляется на материале Корпуса русского рассказа 1900–1930 гг. Исследование позволило выявить особенности рассматриваемых алгоритмов и оценить эффективность их применения для качественного анализа художественной прозы.

Об авторе

М. А. Кирина
Национальный исследовательский университет «Высшая школа экономики»
Россия

Маргарита Александровна Кирина, магистрант

Санкт-Петербург



Список литературы

1. Ерофеева А. Р., Митрофанова О. А. Автоматическое назначение меток тем в тематических моделях русскоязычных корпусов текстов // Структурная и прикладная лингвистика. СПб.: Изд-во СПбГУ, 2019. С. 122–147.

2. Мартыненко Г. Я., Шерстинова Т. Ю., Мельник А. Г., Попова Т. И. Методологические проблемы создания Компьютерной антологии русского рассказа как языкового ресурса для исследования языка и стиля русской художественной прозы в эпоху революционных перемен (первой трети XX века) // Компьютерная лингвистика и вычислительные онтологии. 2018a. № 2. С. 97–102.

3. Мартыненко Г. Я., Шерстинова Т. Ю., Попова Т. И., Мельник А. Г., Замирайлова Е. В. О принципах создания корпуса русского рассказа первой трети XX века // Тр. XV Междунар. конф. по компьютерной и когнитивной лингвистике «TEL-2018». Казань, 2018б. С. 180–197.

4. Митрофанова О. А. Моделирование тематики специальных текстов на основе алгоритма LDA // XLII Междунар. филол. конф. СПб., 2014. С. 220–233.

5. Митрофанова О. А. Исследование структурной организации художественного произведения с помощью тематического моделирования: опыт работы с текстом романа «Мастер и Маргарита» М. А. Булгакова // Корпусная лингвистика – 2019. СПб., 2019. С. 387–394.

6. Томашевский Б. В. Теория литературы. Поэтика: Учеб. пособие. М.: Аспект Пресс, 1996. С. 176–192.

7. Blei, D. M., Ng, A. Y., Jordan, M. I. Latent Dirichlet Allocation. The Journal of Machine Learning Research, 2003, vol. 3, pp. 993–1022.

8. Da, N. Z. The Computational Case against Computational Literary Studies. Critical Inquiry, 2019, vol. 45, no. 3, pp. 601–639.

9. Gaujoux, R., Seoighe, C. A Flexible R package for Nonnegative Matrix Factorization. BMC Bioinformatics, 2010, vol. 11, no. 1, pp. 1–9.

10. Grün, B., Hornik, K. Topicmodels: An R package for Fitting Topic Models. Journal of Statistical Software, 2011, vol. 40, no. 13, pp. 1–30.

11. Gryaznova, E., Kirina, M. Defining Kinds of Violence: A Comparison of Topic Modelling with Latent Dirichlet Allocation and Principal Component Analysis for Russian Short Stories of 1900–1930. In: Proc. of International Conference “Internet and Modern Society”, 2021, pp. 281–290.

12. Guo, F., Metallinou, A., Khatri, C., Raju, A., Venkatesh, A., Ram, A. Topic-based Evaluation for Conversational Bots. In: 31st Conference on Neural Information Processing Systems (NIPS 2017). Long Beach, 2018, arXiv preprint arXiv:1801.03622.

13. Huang, T. C., Hsieh, C. H., Wang, H. C. Automatic Meeting Summarization and Topic Detection System. In: Data Technologies and Applications, 2018, pp. 351–365.

14. Jacobs, T., Tschötschel, R. Topic models meet discourse analysis: a quantitative tool for a qualitative approach. International Journal of Social Research Methodology, 2019, vol. 22, no. 5, pp. 469–485.

15. Jockers, M. L., Mimno, D. Significant themes in 19th-century literature. Poetics, 2013, vol. 41, no. 6, pp. 750–769.

16. Lau, J. H., Newman, D., Karimi, S., Baldwin, T. Best Topic Word Selection for Topic Labelling. In: Proc. of the 23rd Int. Conf. on Computational Linguistics, Association for Computational Linguistics. Stroudsburg, PA, 2010, pp. 605–613.

17. Lee, D., Seung, H. Learning the Parts of Objects by Non-Negative Matrix Factorization. Nature, 1999, vol. 401, pp. 788–791.

18. Liu, L., Tang, L., Dong, W., Yao, S., Zhou, W. An Overview of Topic Modeling and Its Current Applications in Bioinformatics. SpringerPlus, 2016, vol. 5, no. 1, pp. 1–22.

19. Martynenko, G., Sherstinova, T. Linguistic and Stylistic Parameters for the Study of Literary Language in the Corpus of Russian Short Stories of the First Third of the 20th Century. In: R. Piotrowski’s Readings in Language Engineering and Applied Linguistics, Proc. of the III International Conference on Language Engineering and Applied Linguistics (PRLEAL-2019). St. Petersburg, 2020, vol. 2552, pp. 105–120.

20. McFarland, D. A., Ramage, D., Chuang, J., Heer, J., Manning, C. D., Jurafsky, D. Differentiating language usage through topic models. Poetics, 2013, vol. 41, no. 6, pp. 607–625.

21. Mitrofanova, O. Probabilistic Topic Modeling of the Russian Text Corpus on Musicology. In: International Workshop on Language, Music, and Computing. Springer, Cham, 2015, pp. 69–76.

22. Moubayed, N. A., Breckon, T., Matthews, P., McGough, A. S. SMS Spam Filtering Using Probabilistic Topic Modelling and Stacked Denoising Autoencoder. In: International Conference on Artificial Neural Networks. Springer, Cham, 2016, pp. 423–430.

23. Navarro-Colorado, B. On Poetic Topic Modeling: Extracting Themes and Motifs from a Corpus of Spanish Poetry. Frontiers in Digital Humanities, 2018, vol. 5, pp. 5–15.

24. Nikolenko, S. I., Koltsov, S., Koltsova, O. Topic Modelling for Qualitative Studies. Journal of Information Science, 2017, vol. 43, no. 1, pp. 88–102.

25. O’Callaghan, D., Greene, D, Carthy, J., Cunningham, P. An Analysis of the Coherence of Descriptors in Topic Modeling. Expert Systems with Applications (ESWA), 2015, vol. 42, no. 13, pp. 5645–5657.

26. Rana, T. A., Cheah, Y. N., Letchmunan, S. Topic Modeling in Sentiment Analysis: A Systematic Review. Journal of ICT Research & Applications, 2016, vol. 10, no. 1, pp. 76–93.

27. Rhody, L. M. Topic Modelling and Figurative Language. Journal of Digital Humanities, 2012, pp. 19–35.

28. Roberts, M., Stewart, B., Tingley, D. Airoldi, E. The Structural Topic Model and Applied Social Science. NIPS 2013 Workshop on Topic Models: Computation, Application, and Evaluation, 2013, pp. 1–20.

29. Roberts, M., Stewart, B., Tingley, D. STM: An R package for structural topic models. Journal of Statistical Software, 2019, no. 91.1, pp. 1–40.

30. Schöch, C. Topic modeling genre: an exploration of French classical and enlightenment drama. Digital Humanities Quarterly, 2017, vol. 11, no. 2. URL: http://www.digitalhumanities.org/dhq/vol/11/2/000291/000291.html

31. Sherstinova, T., Mitrofanova, O., Skrebtsova, T., Zamiraylova, E., Kirina, M. Topic Modelling with NMF vs Expert Topic Annotation: The Case Study of Russian Fiction. Advances in Computational Intelligence: 19th Mexican International Conference on Artificial Intelligence, MICAI 2020, 2020, vol. 12469, pt. 2, pp. 134–152.

32. Sherstinova, T., Moskvina, A., Kirina, M. Towards Automatic Modelling of Thematic Domains of a National Literature: Technical Issues in the Case of Russian. Proc. of the 29th Conference of Open Innovations Association FRUCT, 2021, pp. 313–323.

33. Straka, M., Straková, J. Universal Dependencies 2.5 Models for UDPipe (2019-12-06). In: LINDAT / CLARIAH-CZ Digital Library at the Institute of Formal and Applied Linguistics (ÚFAL). Faculty of Mathematics and Physics, Charles University, 2019. URL: http:// hdl.handle.net/11234/1-3131

34. Uglanova, I., Gius, E. The Order of Things. A Study on Topic Modelling of Literary Texts. Proc. of the CHR 2020: Workshop on Computational Humanities Research, CEUR Workshop Proceedings, 2020, pp. 57–76.

35. Wijffels, J. UDPipe: Tokenization, Parts of Speech Tagging, Lemmatization and Dependency Parsing with the ‘UDPipe’ ‘NLP’ Toolkit. R package version 0.8.4-1. 2020.

36. Zamiraylova, E., Mitrofanova, O. Dynamic topic modeling of Russian fiction prose of the first third of the 20th century by means of non-negative matrix factorization. Proc. of the III International Conference on Language Engineering and Applied Linguistics (PRLEAL-2019), 2020, vol. 2552, pp. 321–339.


Рецензия

Для цитирования:


Кирина М.А. Сравнение тематических моделей на основе LDA, STM и NMF для качественного анализа русской художественной прозы малой формы. Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация. 2022;20(2):93-109. https://doi.org/10.25205/1818-7935-2022-20-2-93-109

For citation:


Kirina M.A. A Comparison of Topic Models Based on LDA, STM and NMF for Qualitative Studies of Russian Short Prose. NSU Vestnik. Series: Linguistics and Intercultural Communication. 2022;20(2):93-109. (In Russ.) https://doi.org/10.25205/1818-7935-2022-20-2-93-109

Просмотров: 452


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1818-7935 (Print)