Генерация ключевых слов для аннотаций русскоязычных научных статей
https://doi.org/10.25205/1818-7935-2023-21-1-54-66
Аннотация
В этой работе мы попробовали адаптировать различные известные механизмы генерации ключевых слов к весьма специфичному корпусу: аннотациям русскоязычных научных статей из области математики и компьютерных наук. В такой постановке сразу несколько сложностей: отсутствие масштабных исследований механизмов генерации для русского языка, отсутствие крупных корпусов аннотаций и в целом длина аннотаций: если для полного текста ключевые слова обычно встречаются в статье и достаточно лишь выделить их, для аннотаций характерно отсутствие ключевых слов в тексте в явном виде. При этом в открытый доступ попадают обычно именно аннотации, и автоматическая генерация ключевых слов для них позволила бы существенно улучшить возможности поиска по статьям. Причем генерировать слова стоит и для тех статей, в которых авторы сами их указали, так как в ходе исследования мы обнаружили, что используемые ключевые слова нередко уникальны для конкретной статьи, а значит, по таким словам невозможно сформировать подкорпус статей по заданной тематике. Для визуализации результатов работы мы создали ресурс keyphrases.mca.nsu.ru, на котором начинающие исследователи могут сформировать приблизительный список слов для своей первой публикации.
Ключевые слова
Об авторах
Д. А. МорозовРоссия
Морозов Дмитрий Алексеевич, младший научный сотрудник Лаборатории прикладных цифровых технологий Международного математического центра
Новосибирск
А. В. Глазкова
Россия
Глазкова Анна Валерьевна, канд. тех. наук, доцент кафедры программного обеспечения Института математики и компьютерных наук
Тюмень
М. А. Тютюльников
Россия
Тютюльников Михаил Андреевич, инженер, Лаборатория прикладных цифровых технологий Международного математического центра
Новосибирск
Б. Л. Иомдин
Россия
Иомдин Борис Леонидович, канд. филол. наук, ведущий научный сотрудник
Москва
Список литературы
1. Тихонова Е. В., Косычева М. А. Эффективные ключевые слова: стратегии формулирования // Health, Food & Biotechnology. 2021. № 4 (3). С. 7–15.
2. Шереметьева С. О., Осминин П. Г. Методы и модели автоматического извлечения ключевых слов // Вестник Южно-Уральского государственного университета. Серия: Лингвистика. 2015. № 1 (12). С. 76–81.
3. Boudin F. PKE: an open source python-based keyphrase extraction toolkit // Proceedings of COLING 2016, the 26th international conference on computational linguistics: system demonstrations / ed. by H. Watanabe. The COLING 2016 Organizing Committee. 2016. Pp. 69–73.
4. Bougouin A., Boudin F., Daille B. TopicRank: Graph-based topic ranking for keyphrase extraction // Proceedings of the Sixth International Joint Conference on Natural Language Processing / ed. by R. Mitkov and J. C. Park. Asian Federation of Natural Language Processing. 2013. Pp. 543–551.
5. Campos R., Mangaravite V., Pasquali A., Jorge A., Nunes C., Jatowt A. YAKE! Keyword extraction from single documents using multiple local features // Information Sciences. 2020. 509. Pp. 257–289.
6. Chen W., Chan H. P., Li P., King I. Exclusive Hierarchical Decoding for Deep Keyphrase Generation // Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics / ed. by D. Jurafsky, J. Chai, N. Schluter and J. Tetreault. Association for Computational Linguistics. 2020. Pp. 1095–1105.
7. Devlin J., Chang M. W., Lee K., Toutanova K. BERT: Pre-training of deep bidirectional transformers for language understanding // Proceedings of NAACL-HLT / ed. by J. Burstein, C. Doran, T. Solorio. Association for Computational Linguistics. 2019. Pp. 4171–4186.
8. El-Beltagy S. R., Rafea A. KP-Miner: A keyphrase extraction system for English and Arabic documents // Information Systems. 2009. № 1 (34). Pp. 132–144.
9. Ghanbarpour A., Naderi H. A model-based method to improve the quality of ranking in keyword search systems using pseudo-relevance feedback // Journal of Information Science. 2019. № 4 (45). Pp. 473–487.
10. Grootendorst M. KeyBERT: Minimal Keyword Extraction with BERT. 2020 [Электронный ресурс]. URL: http://doi.org/10.5281/zenodo.4461265 (дата обращения: 29.11.2022).
11. Harris Z. S. Distributional structure // Word. 1954. № 2-3 (10). Pp. 146–162.
12. Koloski B., Pollak S., Škrlj B., Martinc M. Extending Neural Keyword Extraction with TF-IDF tagset matching // Proceedings of the EACL Hackashop on News Media Content Analysis and Automated Report Generation / ed. by H. Toivonen, M. Boggia. Association for Computational Linguistics. 2021. Pp. 22–29.
13. Korobov M. Morphological analyzer and generator for Russian and Ukrainian languages // International conference on analysis of images, social networks and texts / ed. by M. Yu. Khachay, N. Konstantinova, A. Panchenko, D. Ignatov, V. G. Labunets. Springer, Cham. 2015. Pp. 320–332.
14. Kuratov Y., Arkhipov M. Adaptation of deep bidirectional multilingual transformers for Russian language // Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialogue 2019”. 2019 [Электронный ресурс]. URL: https://www.dialog-21.ru/media/4606/kuratovyplusarkhipovm-025.pdf (дата обращения: 29.11.2022).
15. Lin C. Y. ROUGE: A package for automatic evaluation of summaries // Text summarization branches out. Association for Computational Linguistics. 2004. Pp. 74–81.
16. Meng R., Zhao S., Han S., He D., Brusilovsky P., Chi Y. Deep Keyphrase Generation // Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) / ed. by R. Barzilay, M.-Y. Kan. Association for Computational Linguistics. 2017. Pp. 582–592.
17. Mihalcea R., Tarau Pp. TextRank: Bringing order into text // Proceedings of the 2004 conference on empirical methods in natural language processing / ed. by D. Lin, D. Wu. Association for Computational Linguistics. 2004. Pp. 404–411.
18. Morozov D., Glazkova A. Keyphrases CS&Math Russian, Mendeley Data. 2022 [Электронный ресурс]. URL: http://doi.org/10.17632/dv3j9wc59v.1 (дата обращения: 29.11.2022).
19. Page L., Brin S., Motwani R., Winograd T. The PageRank citation ranking: Bringing order to the web. Stanford InfoLab. 1998 [Электронный ресурс]. URL: http://ilpubs.stanford.edu:8090/422/1/1999-66.pdf (дата обращения: 02.12.2022).
20. Sandul M., Mikhailova E. Keyword extraction from single Russian document // Proceedings of the Third Conference on Software Engineering and Information Management (full papers) / ed. by Y. Litvinov, M. Akhin, B. Novikov ,V. Itsykson. CEUR Workshop Proceedings, 2018. Pp. 30–36.
21. Sokolova E., Moskvina A., Mitrofanova O. Keyphrase Extraction from the Russian Corpus on Linguistics by Means of KEA and RAKE Algorithms // Data analytics and management in data intensive domains: Proceedings of the XX International Conference – DAMDID/RCDL’2018 / ed. by L. Kalinichenko, Y. Manolopoulos, S. Stupnikov, N. Skvortsov, V. Sukhomlin. FRC CSC RAS, 2018. Pp. 369–372.
22. Wienecke Y. Automatic Keyphrase Extraction From Russian-Language Scholarly Papers in Computational Linguistics: University Honors Theses. Portland State University, 2020. 36 p.
23. Witten I. H., Paynter G. W., Frank E., Gutwin C., Nevill-Manning C. G. KEA: Practical automatic keyphrase extraction // Proceedings of the fourth ACM conference on Digital libraries / ed. by N. Rowe, E. A. Fox. Association for Computing Machinery, 1999. Pp. 254–255.
24. Zhang T., Kishore V., Wu F., Weinberger K. Q., Artzi Y. BERTScore: Evaluating Text Generation with BERT // International Conference on Learning Representations. 2019 [Электронный ресурс]. URL: https://openreview.net/pdf?id=SkeHuCVFDr (дата обращения: 29.11.2022).
Рецензия
Для цитирования:
Морозов Д.А., Глазкова А.В., Тютюльников М.А., Иомдин Б.Л. Генерация ключевых слов для аннотаций русскоязычных научных статей. Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация. 2023;21(1):54-66. https://doi.org/10.25205/1818-7935-2023-21-1-54-66
For citation:
Morozov D.A., Glazkova A.V., Tyutyulnikov M.A., Iomdin B.L. Keyphrase Generation for Abstracts of the Russian-Language Scientific Articles. NSU Vestnik. Series: Linguistics and Intercultural Communication. 2023;21(1):54-66. (In Russ.) https://doi.org/10.25205/1818-7935-2023-21-1-54-66