Preview

Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация

Расширенный поиск

Количественная оценка грамматической неоднозначности некоторых европейских языков

https://doi.org/10.25205/1818-7935-2020-18-1-5-21

Аннотация

Неоднозначность слов по их грамматическим категориям является хорошо исследованной областью, однако существующие методы ее оценки в текстах на различных естественных языках являются скорее количественными, чем качественными. В данной статье предлагается разделение всех слов на несколько классов неоднозначности. Подобное разделение позволяет ввести количественный метод оценки, основанный на расчете статистики употребления слов. В статье проводится исследование неоднозначности для таких языков, как английский, немецкий, шведский, испанский, каталанский, французский, итальянский, португальский, русский, польский, словенский, турецкий. Нами было численно показано, что распределение слов по классам неоднозначности зависит от выбранного корпуса или системы морфологического анализа, однако остается уникальным для заданного языка. Так, славянские языки, а также французский и итальянский, обладают самой низкой частотой слов, неоднозначных по части речи. Наибольшей неоднозначностью по собственно грамматическим параметрам обладают славянские языки, немецкий и шведский. Кроме того, была обнаружена зависимость неоднозначности от частотности слова. В статье показывается, что наибольшей степенью неоднозначности обладают слова из первой тысячи самых частотных слов. Для большинства исследованных языков при снижении частоты слов также падает и процент слов, неоднозначных по части речи. Учет разных классов неоднозначности позволяет более корректно проводить оценку систем снятия грамматической неоднозначности, применяемых для разных языков. Обычно сравнение проводится на всем тексте, тогда как мы предлагаем сравнивать результаты только на неоднозначных словах, поскольку их процент существенно отличается от языка к языку. Наши эксперименты, не вошедшие в данную статью, показали, что учет класса неоднозначности позволяет несколько улучшить работу системы автоматического снятия неоднозначности.

Об авторах

Э. С. Клышинский
Национальный исследовательский университет «Высшая школа экономики»
Россия


В. К. Логачева
Сколковский институт науки и технологий
Россия


О. В. Карпик
Институт прикладной математики им. М. В. Келдыша РАН
Россия


А. В. Бондаренко
Государственный научно-исследовательский институт авиационных систем
Россия


Рецензия

Для цитирования:


Клышинский Э.С., Логачева В.К., Карпик О.В., Бондаренко А.В. Количественная оценка грамматической неоднозначности некоторых европейских языков. Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация. 2020;18(1):5-21. https://doi.org/10.25205/1818-7935-2020-18-1-5-21

For citation:


Klyshinsky E.S., Logacheva V.K., Karpik O.V., Bondarenko A.V. Quantitative Estimation of Grammatical Ambiguity: Case of European Languages. NSU Vestnik. Series: Linguistics and Intercultural Communication. 2020;18(1):5-21. (In Russ.) https://doi.org/10.25205/1818-7935-2020-18-1-5-21

Просмотров: 191


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1818-7935 (Print)