Аннотация
Статья посвящена экспериментальной апробации методов автоматического определения половой принадлежности авторов на материале русской художественной прозы 1960-2000 гг. Цель данной работы - выявление оптимальных методов автоматического определения половой принадлежности авторов, подкрепленное экспериментом по определению наиболее результативного алгоритма классификации художественных текстов при помощи машинного обучения. Задачи данного исследования включают в себя выделение грамматических и лексико-стилистических особенностей женской художественной прозы 1960-2000 гг. на фоне мужской прозы того же периода, а также и текстов XVIII-XIX вв.; отслеживание изменений в распределении употребления частей речи и знаков пунктуации на протяжении обозначенного периода. В женских и мужских текстах анализировались наиболее частотные части речи. Произведен анализ употребления особо часто используемых знаков препинания из заданного списка: вопросительный знак, восклицательный знак, запятая, двоеточие, точка с запятой, точка, запятая. В статье показан анализ распределения частей речи и знаков пунктуации в художественных текстах мужчин и женщин XVIII-XIX вв. Также проведен эксперимент по выявлению наиболее действенного алгоритма определения половой принадлежности автора. В результате исследования установлено, что частотность употребления различных частей речи в женских и мужских текстах заданного периода выглядит следующим образом: существительные, глаголы, предлоги, местоименные существительные, союзы и прилагательные, что отражает специфику художественного стиля. Можно заключить, что в современной литературе женщины более активно используют возможности пунктуации как выразительного средства: доля употребления восклицательных, вопросительных знаков и запятых у писательниц значительно превышает значение, полученное посредством анализа мужских текстов. Выяснено, что наиболее эффективными классификаторами художественной литературы являются такие реализации алгоритмов, как BayesNet и SMO.