Preview

Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация

Расширенный поиск

Высокоуровневая семантическая интерпретация структуры статических моделей для русского языка

https://doi.org/10.25205/1818-7935-2023-21-1-67-82

Аннотация

С момента своего появления векторное пространство Word2vec стало универсальным инструментом для научной и практической деятельности. С течением времени стало понятно, что необходима разработка новых методов интерпретации расположения слов в векторном пространстве. Существующие методы включали рассмотрение узкого круга аналогий либо кластеризацию пространства. В последние годы активно развивается подход на основе пробинга – анализа влияния небольших изменений в модели на результат. В этой работе мы предлагаем метод интерпретации расположения слов в векторном пространстве, применимый ко всему пространству в целом. Метод позволяет выявлять основные направления, вдоль которых выделяются наиболее крупные группы слов (около трети всех слов словаря), противопоставляемые друг другу по некоторым семантическим признакам, а также строить неглубокую иерархию таких признаков. Эксперименты были проведены на трех моделях, обученных на разных корпусах: Национальном корпусе русского языка, Araneum Russicum и коллекции научных статей из разных предметных областей. Для экспериментов использовались только имена существительные, входящие в словарь моделей. Рассмотрена экспертная интерпретация подобного разделения вплоть до третьего уровня. Набор и иерархия этих признаков отличаются для разных моделей, однако все они являются достаточно общими. Было обнаружено, что выделенные признаки разделения зависят от состава корпусов, на которых проводилось обучение моделей, их направленности и стиля. Полученное разделение не всегда коррелирует с принятым в области разработки онтологий. Так, совпадающим признаком является абстрактность или вещность объекта. Однако для моделей на верхнем уровне оказывается более важным разделение на повседневную/специальную лексику, архаичную лексику, разделение на имена собственные и нарицательные. В статье приведены примеры слов, входящих в полученные группы.

Об авторах

О. А. Сериков
Московский физико-технический институт; Институт искусственного интеллекта AIRI; Институт языкознания РАН; Научно-исследовательский университет «Высшая школа экономики»
Россия

Сериков Олег Алексеевич, исследователь, Школа Лингвистики НИУ ВШЭ; МФТИ; Институт искусственного интеллекта AIRI; Лаборатория исследования и сохранения малых языков ИЯЗ РАН

Москва



В. А. Ганеева
Научно-исследовательский университет «Высшая школа экономики»
Россия

Ганеева Вероника Александровна, магистрант

Москва



А. А. Аксенова
ПАО «Сбербанк»
Россия

Аксенова Анна Александровна, исследователь данных

Москва



Э. С. Клышинский
Научно-исследовательский университет «Высшая школа экономики»
Россия

Клышинский Эдуард Станиславович, доцент, канд. тех. наук

Москва



Список литературы

1. Грибова В. В., Петряева М. В., Окунь Д. Б., Шалфеева Е. А. Онтология медицинской диагностики для интеллектуальных систем поддержки принятия решений // Онтология проектирования. 2018. Т. 8, № 1(27). С. 58–73.

2. Розенталь Д. Э., Теленкова М. А. Словарь-справочник лингвистических терминов. 2-е изд. М.: Просвещение, 1976, 543 с.

3. Adi Y. et al. Fine-grained analysis of sentence embeddings using auxiliary prediction tasks [Электронный ресурс]. URL: https://arxiv.org/abs/1608.04207 (дата обращения 01.09.2022).

4. Bocharov V., Bichineva S., Granovsky D., Ostapuk N., Stepanova M. Quality assurance tools in the OpenCorpora project // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 25–29 мая 2011 г.). Вып. 10(17). М.: РГГУ, 2011. С. 107–115.

5. Bodenreider, O. The Unified Medical Language System (UMLS): integrating biomedical terminology [Электронный ресурс]. Oxford University Press, 2004, рр. 267–270. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC308795/ (дата обращения: 01.09.2022)

6. Chizhikova A., Murzakhmetov S., Serikov O., Shavrina T., Burtsev M. Attention Understands Semantic Relations // Proc. of the 13th Conference on Language Resources and Evaluation (LREC 2022), 2022, pp. 4040–4050.

7. Conneau A., Lample G., Ranzato M. A., Denoyer L., Jégou H. Word Translation Without Parallel Data. [Электронный ресурс]. URL: https://arxiv.org/abs/1710.04087 (дата обращения: 01.09.2022).

8. Conneau A. et al. What you can cram into a single vector: Probing sentence embeddings for linguistic properties [Электронный ресурс]. URL: https://arxiv.org/abs/1805.01070 (дата обращения: 01.09.2022).

9. Ethayarajh K. How contextual are contextualized word representations? Comparing the Geometry of BERT, ELMo, and GPT-2 Embeddings // Proc. of Association for Computational Linguistics, Hong Kong, 2019, pp. 55–65.

10. Faruqui M., Tsvetkov Y., Yogatama D., Dyer C., Smith N. A. Sparse Overcomplete Word Vector Representations // Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing, 2015, pp. 1491–1500.

11. Gallant S. Context vector representations for document retrieval // Proc. of AAAI Workshop on Natural Language Text Retrieval, 1991.

12. Gustaf S. Meaning and change of meaning: with special reference to the English language. Indiana University Press, 1964, 490 p.

13. Korogodina, O., Karpik, O., Klyshinsky E. Evaluation of Vector Transformations for Russian Word2Vec and FastText Embeddings // Proc. of Graphicon-2020. DOI 10.51130/graphicon-2020-2-3-18

14. Kozlowski A., Taddy М., Evansa J. The Geometry of Culture: Analyzing the Meanings of Class through Word Embeddings // American Sociological Review. 2017. Pp. 905–949.

15. Kutuzov A. Distributional word embeddings in modeling diachronic semantic change [Электронный ресурс] / Doctoral Thesis, University of Oslo, 2020. https://www.duo.uio.no/bitstream/handle/10852/81045/1/Kutuzov-Thesis.pdf.

16. Lasri K., Pimentel T., Lenci A., Poibeau T., Cotterell R. Probing for the Usage of Grammatical Number // Proc. of the 60th Annual Meeting of the Association for Computational Linguistics. 2022. Vol. 1, Pp. 8818–8831.

17. Linzen T., Dupoux E., Goldberg Y. Assessing the ability of LSTMs to learn syntax-sensitive dependencies // Transactions of the Association for Computational Linguistics. 2016. Vol. 4. Pp. 521–535.

18. Loureiro D., Alipio M. J. Language Modelling Makes Sense: Propagating Representations through WordNet for Full-Coverage Word Sense Disambiguation // Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. 2019. Pp. 5682–5691.

19. Representations. Virtual Event, Austria, May 3-7, 2021 [Электронный ресурс]. URL: https://openreview.net/forum?id=mNtmhaDkAr (дата обращения 01.09.2022)

20. Mikolov T., Chen K., Corrado G., Dean J. Efficient estimation of word representations in vector space // Proc. of International Conference on Learning Representations (ICLR), 2013 a.

21. Mikolov T., Chen K., Corrado G., Dean J. Distributed Representations of Words and Phrases and their Compositionality // Proc. of 27th Annual Conference on Neural Information Processing Systems. 2013. Pp. 3111–3119.

22. Rabinovich E., Xu Y., Stevenson S. The Typology of Polysemy: A Multilingual Distributional Framework, 2020 [Электронный ресурс]. URL: https://arxiv.org/abs/2006.01966v1 (дата обращения 01.09.2022).

23. Ravfogel S. et al. Counterfactual interventions reveal the causal effect of relative clause representations on agreement prediction [Электронный ресурс]. URL: https://arxiv.org/abs/2105.06965 (дата обращения 01.09.2022).

24. Rubinstein D., Levi E., Schwartz R., Rappoport A. How well do distributional models capture different types of semantic knowledge? [Электронный ресурс] // Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Association for Computational Linguistics. 2015. Pp. 726–730. https://aclanthology.org/P15-2119.pdf.

25. Subramanian A., Pruthi D., Jhamtani H., Berg-Kirkpatrick T., Hovy E. SPINE: SParse Interpretable Neural Embeddings // The 32nd AAAI Conference on Artificial Intelligence (AAAI-18), 2018.

26. Tenney I., Das D., Pavlick E. BERT rediscovers the classical NLP pipeline. [Электронный ресурс].

27. URL: https://arxiv.org/abs/1905.05950 (дата обращения 01.09.2022).

28. Vig J. et al. Causal mediation analysis for interpreting neural nlp: The case of gender bias [Электронный ресурс]. URL: https://arxiv.org/abs/2004.12265 (дата обращения 01.09.2022).

29. Voloshina E., Serikov O., Shavrina T. Is neural language acquisition similar to natural? A chronological probing study // Proc. of Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialogue 2022”, 2022. Pp. 550–563.

30. Weeds J., Clarke D., Reffin J., Weir D., Keller B. Learning to distinguish hypernyms and cohyponyms // Proceedings of COLING 2014. Dublin, the 25th International Conference on Computational Linguistics: Technical Papers, 2014. Pp. 2249–2259.

31. Yao S., Yu D., Xiao K. Enhancing Domain Word Embedding via Latent Semantic Imputation, 2019 [Электронный ресурс]. URL: https://arxiv.org/abs/1905.08900 (дата обращения 01.09.2022).


Рецензия

Для цитирования:


Сериков О.А., Ганеева В.А., Аксенова А.А., Клышинский Э.С. Высокоуровневая семантическая интерпретация структуры статических моделей для русского языка. Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация. 2023;21(1):67-82. https://doi.org/10.25205/1818-7935-2023-21-1-67-82

For citation:


Serikov O.A., Geneeva V.A., Aksenova A.A., Klyshinskiy E.S. High-Level Semantic Interpretation of the Russian Static Models Structure. NSU Vestnik. Series: Linguistics and Intercultural Communication. 2023;21(1):67-82. (In Russ.) https://doi.org/10.25205/1818-7935-2023-21-1-67-82

Просмотров: 278


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1818-7935 (Print)