Preview

Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация

Расширенный поиск

Особенности применения статистических мер в задачах выделения китайских иероглифических биграмм

https://doi.org/10.25205/1818-7935-2022-20-2-64-80

Аннотация

Для изучения современной лексики определенной профессиональной тематики есть возможность создавать коллекции текстов и применять к ним программные средства лингвистического анализа. Однако существует проблема качества автоматической сегментации китайского текста на слова. Одним из способов выделения в китайском тексте лексических единиц является применение статистических мер выделения коллокаций к иероглифическим биграммам. Цель настоящей работы заключается в проведении сопоставительного анализа семи разных статистических мер оценки коллокаций как средства выделения двусложных лексических единиц (биномов) в несегментированном иероглифическом тексте на китайском языке. Предметом анализа являются лексико-грамматические и частотные характеристики биграмм, имеющих наибольшие значения рассматриваемых статистических мер. Их сопоставление позволяет сделать вывод об особенностях статистических мер, в частности о том, каким лингвистическим задачам какая мера лучше соответствует. Языковым материалом исследования послужила коллекция из 560 новостных текстов военной тематики на китайском языке объемом более 720 тысяч знаков. Результаты показывают, что рассмотренные статистические меры можно разделить на три группы по тому, какие характеристики биграмм получают наибольшие значения. К первой группе относятся меры MI, MS и logDice, которые дают приоритет редким биграммам с ограниченной сочетаемостью компонентов, таким как китайские двусложные одноморфемные слова «ляньмяньцзы». Эти меры плохо выделяют термины, но могут использоваться для поиска фразеологически связанных компонентов. Меры второй группы, t-score и log-likelihood, ориентированы на частотность, близки к анализу по частоте, но лучше него справляются с нелексическими биграммами, при этом log-likelihood несколько понижает ранг числительных и местоимений, лучше всех выделяя именно характерную для профессионального дискурса лексику. К третьей группе относятся меры MI3 и MI.log-f, которые усредняют противоположные подходы первых двух групп. Мера MI3 оценивается как наиболее универсальная, она могла бы использоваться для сравнения различных корпусов или коллекций текстов. Делается вывод, что использование статистических мер в отношении иероглифических биграмм возможно и целесообразно при учете соответствия их специфики исследовательской задаче.

Об авторе

Д. С. Коршунов
Военный университет радиоэлектроники
Россия

Дмитрий Сергеевич Коршунов, кандидат филологических наук

SPIN 7282-7336

Череповец



Список литературы

1. Алпатов В. М. Части речи и семантика // Язык, сознание, коммуникация: Сб. ст. / Отв. ред. В. В. Красных, А. И. Изотов. М.: МАКС Пресс, 2016. Вып. 53. С. 11–26.

2. Влавацкая М. В. Типология коллокаций в комбинаторной лингвистике // Мир науки, культуры, образования. 2019. № 4 (77). С. 439–442.

3. Власова Е. А., Карпова Е. Л., Ольшевская М. Ю. Лексический минимум по языку специальности: сколько слов достаточно? Разработка принципов минимизации // Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация. 2019. Т. 17, № 4. С. 63–77. DOI 10.25205/ 1818-7935-2019-17-4-63-77

4. Гроховский П. Л., Добров А. В., Доброва А. Е., Захаров В. П., Сомс Н. Л. Компьютерный морфосинтаксический анализ несегментированного текста (на материале корпуса тибетских грамматических сочинений) // Структурная и прикладная лингвистика: Межвуз. сб. / Отв. ред. И. С. Николаев. СПб.: Изд-во СПбГУ, 2019. Вып. 12: К 60-летию отделения прикладной, компьютерной и математической лингвистики СПбГУ. С. 69–80.

5. Грудева Е. В., Тиханович А. Н. Лексическая функция MAGN в современном русском языке: корпусное и экспериментальное изучение: Моногр. Новосибирск: Изд-во СибАК, 2014. 264 с.

6. Захаров В. П., Хохлова М. В. Анализ эффективности статистических методов выявления коллокаций в текстах на русском языке // Компьютерная лингвистика и интеллектуальные технологии. 2010. № 9 (16). С. 137–143.

7. Иорданская Л. Н., Мельчук И. А. Смысл и сочетаемость в словаре. М.: Языки славянских культур, 2007. 673 с.

8. Касевич В. Б. Субморфы, слогоморфемы и слогоморфемные языки // Касевич В. Б. Труды по языкознанию: В 2 т. / Под ред. Ю. А. Клейнера. СПб.: Филол. фак. СПбГУ, 2011а. Т. 2. С. 389–394.

9. Касевич В. Б. О стратегиях сегментации текста (на материале китайского, японского и русского языков) // Касевич В. Б. Труды по языкознанию: В 2 т. / Под ред. Ю. А. Клейнера. СПб.: Филол. фак. СПбГУ, 2011б. С. 615–622.

10. Коршунов Д. С. Частота совместной встречаемости иероглифов как показатель лексичности (при отборе лексики китайского военного дискурса) // Филологические науки в МГИМО. 2020. Т. 6, № 4 (24). С. 14–24. DOI 10.24833/2410-2423-2020-4-24-14-24

11. Хаматова А. А. Словообразование современного китайского языка. М.: Муравей, 2003. 224 с.

12. Хохлова М. В. Особенности статистических мер при выделении биграмм // Тр. Международной конференции «Корпусная лингвистика – 2017». СПб.: Изд-во СПбГУ, 2017. С. 349–354.

13. Ягунова Е. В., Пивоварова Л. М. Природа коллокаций в русском языке. Опыт автоматического извлечения и классификации на материале новостных текстов // Сб. НТИ. Сер. 2. 2010. № 6. С. 30–40.

14. Chen, X. C., Shi, Z., Qiu, X. P., Huang, X. J. Adversarial multi-criteria learning for Chinese word segmentation. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, 2017, vol. 1, pp. 1193–1203.

15. Church, К., Hanks, P. Word association norms, mutual information, and lexicography. Computational Linguistics, 1990, no. 16 (1), pp. 22–29.

16. Da, Jun. Chinese text computing. 2004. (на кит., англ. яз.) URL: http://lingua.mtsu.edu/chinesecomputing (дата обращения 23.03.2020).

17. Lan Huang, Juan Zhou, Jing Xue, Yongxing Li, Youfu Du. DACE: Extracting and Exploring Large Scale Chinese Web Collocations with Distributed Computing. American Journal of Information Systems, 2017, vol. 5, no. 1, pp. 27–32. DOI 10.12691/ajis-5-1-4

18. Li Jingyang, Sun Maosong, Zhang Xian. A Comparison and Semi-Quantitative Analysis of Words and Character-Bigrams as Features in Chinese Text Categorization. In: Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the Association for Computational Linguistics. Sydney, 2006, pp. 545–552.

19. Li Shouji, Guo Shulun. Collocation Analysis Tools for Chinese Collocation Studies. Journal of Technology and Chinese Language Teaching, 2016, no. 7 (1), pp. 56–77.

20. Meng, Y., Li, X., Sun, X., Han, Q., Yuan, A., Li, J. Is Word Segmentation Necessary for Deep Learning of Chinese Representations? Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, 2019, pp. 3242–3252.

21. Pedersen, T. Dependent Bigram Identification. Proceedings of American Association of Artificial Intelligence, 1998, pp. 193. URL: https://www.aaai.org/Papers/AAAI/1998/AAAI98-193.pdf

22. Piao, S., Sun Guangfan, Rayson, P., Yuan Qi. Automatic Extraction of Chinese Multiword Expressions with a Statistical Tool. In: Proceedings of the Conference of the European Chapter of the Association for Computational Linguistics Workshop on Multiword Expressions in a Multilingual Context. Trento, Italy, 2006, pp. 17–24.

23. Sproat, R., Shih, C. A statistical method for finding word boundaries in Chinese text. Computer Processing of Chinese and Oriental Languages, 1990, vol. 4, no. 4, pp. 336–351.

24. Sun, M. S., Shen, D. Y., Benjamin, K. T. Chinese Word Segmentation without Using Lexicon and Hand-crafted Training Data. Meeting of the Association for Computational Linguistics and International Conference on Computational Linguistics Association for Computational Linguistics, 1998, no. 48 (2), pp. 1265–1271.

25. Zakharov, V. Automatic Collocation Extraction: Association Measures Evaluation and Integration. In: Computational Linguistics and Intellectual Technologies: Papers from the Annual International Conference “Dialogue” (2017). Moscow, RSUH, 2017a, vol. 1, iss. 16 (23), pp. 396–407.

26. Zakharov, V. Comparative Evaluation and Integration of Collocation Extraction Metrics. In: Ekstein K., Matousek V. (eds.). Lecture Notes in Computer Science, vol. 10415 (Text, Speech, and Dialogue – 20th International Conference, TSD 2017, Prague, Czech Republic, August 27–31, 2017, Proceedings). Springer International Publ. AG, 2017b, pp. 255–262.

27. 王素格, 杨军玲, 张武 (Ван Сугэ, Ян Цзюньлин, Чжан У). 自动获取汉语词语搭配 (Автоматическое извлечение коллокаций на китайском языке) // 中文信息学报, 2006. 第20卷. 第6期. 31–37页. (на кит. яз.)

28. 邓耀臣 (Дэн Яочэнь). 词语搭配研究中的统计方法 (Статистические методы исследования коллокаций) // 大连海事大学学报(社会科学版) , 2003. 第2卷. 第4期. 74–77页. (на кит. яз.)

29. 孙茂松, 黄昌宁, 邹嘉彦, 陆方, 沈达阳 (Сунь Маосун, Хуан Чаннин, Цзоу Цзяянь, Лу Фан, Шэнь Даян) 利用汉字二元语法关系解决汉语自动分词中的交集型歧义 (Снятие неоднозначности при автоматической сегментации китайского текста с помощью иероглифических биграмм) // 计算机研究与发展, 1997. 第34卷. 第5期. 332–339页. (на кит. яз.)

30. 全昌勤, 刘辉, 何婷婷 (Цюань Чанцинь, Лю Хуэй, Хэ Тинтин). 基于统计模型的词语搭配 自动获取方法的分析与比较 (Анализ и сопоставление методов автоматического извлечения коллокаций на основе статистических моделей) // 计算机应用研究, 2005. 第22卷. 第9期. 55–57页. (на кит. яз.)


Рецензия

Для цитирования:


Коршунов Д.С. Особенности применения статистических мер в задачах выделения китайских иероглифических биграмм. Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация. 2022;20(2):64-80. https://doi.org/10.25205/1818-7935-2022-20-2-64-80

For citation:


Korshunov D.S. Distinctive Features of Association Measures Applied to Chinese Character Bigram Extraction Tasks. NSU Vestnik. Series: Linguistics and Intercultural Communication. 2022;20(2):64-80. (In Russ.) https://doi.org/10.25205/1818-7935-2022-20-2-64-80

Просмотров: 245


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1818-7935 (Print)