Preview

Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация

Расширенный поиск

Автоматическое определение половой принадлежности автора текста: феномен русской женской прозы

https://doi.org/10.25205/1818-7935-2020-18-1-22-32

Аннотация

Статья посвящена экспериментальной апробации методов автоматического определения половой принадлежности авторов на материале русской художественной прозы 1960-2000 гг. Цель данной работы - выявление оптимальных методов автоматического определения половой принадлежности авторов, подкрепленное экспериментом по определению наиболее результативного алгоритма классификации художественных текстов при помощи машинного обучения. Задачи данного исследования включают в себя выделение грамматических и лексико-стилистических особенностей женской художественной прозы 1960-2000 гг. на фоне мужской прозы того же периода, а также и текстов XVIII-XIX вв.; отслеживание изменений в распределении употребления частей речи и знаков пунктуации на протяжении обозначенного периода. В женских и мужских текстах анализировались наиболее частотные части речи. Произведен анализ употребления особо часто используемых знаков препинания из заданного списка: вопросительный знак, восклицательный знак, запятая, двоеточие, точка с запятой, точка, запятая. В статье показан анализ распределения частей речи и знаков пунктуации в художественных текстах мужчин и женщин XVIII-XIX вв. Также проведен эксперимент по выявлению наиболее действенного алгоритма определения половой принадлежности автора. В результате исследования установлено, что частотность употребления различных частей речи в женских и мужских текстах заданного периода выглядит следующим образом: существительные, глаголы, предлоги, местоименные существительные, союзы и прилагательные, что отражает специфику художественного стиля. Можно заключить, что в современной литературе женщины более активно используют возможности пунктуации как выразительного средства: доля употребления восклицательных, вопросительных знаков и запятых у писательниц значительно превышает значение, полученное посредством анализа мужских текстов. Выяснено, что наиболее эффективными классификаторами художественной литературы являются такие реализации алгоритмов, как BayesNet и SMO.

Об авторе

А. Б. Хазова
Национальный исследовательский университет «Высшая школа экономики»
Россия


Рецензия

Для цитирования:


Хазова А.Б. Автоматическое определение половой принадлежности автора текста: феномен русской женской прозы. Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация. 2020;18(1):22-32. https://doi.org/10.25205/1818-7935-2020-18-1-22-32

For citation:


Khazova A.B. Automatic Detection of Gender Identity: The Phenomenon of Russian Women’s Prose. NSU Vestnik. Series: Linguistics and Intercultural Communication. 2020;18(1):22-32. (In Russ.) https://doi.org/10.25205/1818-7935-2020-18-1-22-32

Просмотров: 219


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1818-7935 (Print)