Автоматическое определение половой принадлежности автора текста: феномен русской женской прозы

А. Б. Хазова

doi:10.25205/1818-7935-2020-18-1-22-32

Автоматическое определение половой принадлежности автора текста: феномен русской женской прозы

А. Б. Хазова

https://doi.org/10.25205/1818-7935-2020-18-1-22-32

Полный текст:

PDF (Rus)

сгенерировать QR код

Аннотация

Статья посвящена экспериментальной апробации методов автоматического определения половой принадлежности авторов на материале русской художественной прозы 1960-2000 гг. Цель данной работы - выявление оптимальных методов автоматического определения половой принадлежности авторов, подкрепленное экспериментом по определению наиболее результативного алгоритма классификации художественных текстов при помощи машинного обучения. Задачи данного исследования включают в себя выделение грамматических и лексико-стилистических особенностей женской художественной прозы 1960-2000 гг. на фоне мужской прозы того же периода, а также и текстов XVIII-XIX вв.; отслеживание изменений в распределении употребления частей речи и знаков пунктуации на протяжении обозначенного периода. В женских и мужских текстах анализировались наиболее частотные части речи. Произведен анализ употребления особо часто используемых знаков препинания из заданного списка: вопросительный знак, восклицательный знак, запятая, двоеточие, точка с запятой, точка, запятая. В статье показан анализ распределения частей речи и знаков пунктуации в художественных текстах мужчин и женщин XVIII-XIX вв. Также проведен эксперимент по выявлению наиболее действенного алгоритма определения половой принадлежности автора. В результате исследования установлено, что частотность употребления различных частей речи в женских и мужских текстах заданного периода выглядит следующим образом: существительные, глаголы, предлоги, местоименные существительные, союзы и прилагательные, что отражает специфику художественного стиля. Можно заключить, что в современной литературе женщины более активно используют возможности пунктуации как выразительного средства: доля употребления восклицательных, вопросительных знаков и запятых у писательниц значительно превышает значение, полученное посредством анализа мужских текстов. Выяснено, что наиболее эффективными классификаторами художественной литературы являются такие реализации алгоритмов, как BayesNet и SMO.

Ключевые слова

женская проза, пол, гендер, классификация, машинное обучение, кластеризация

Об авторе

А. Б. Хазова

Национальный исследовательский университет «Высшая школа экономики»
Россия

Рецензия

Для цитирования:

Хазова А.Б. Автоматическое определение половой принадлежности автора текста: феномен русской женской прозы. Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация. 2020;18(1):22-32. https://doi.org/10.25205/1818-7935-2020-18-1-22-32

For citation:

Khazova A.B. Automatic Detection of Gender Identity: The Phenomenon of Russian Women’s Prose. NSU Vestnik. Series: Linguistics and Intercultural Communication. 2020;18(1):22-32. (In Russ.) https://doi.org/10.25205/1818-7935-2020-18-1-22-32

Контент доступен под лицензией Creative Commons Attribution 4.0 License.

ISSN 1818-7935 (Print)

Логин
Пароль
	Запомнить меня
Регистрация нового пользователя Забыли Ваш пароль?

Войти

Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация

Автоматическое определение половой принадлежности автора текста: феномен русской женской прозы

Полный текст:

Аннотация

Ключевые слова

Об авторе

Рецензия

Для цитирования:

For citation:

Использование куки-файлов