Аннотация
На сегодняшний день одним из стремительно развивающихся направлений научных исследований является создание разговорного интеллекта, способного поддерживать полноценный человеко-машинный диалог на произвольное количество тем. Благодаря большому количеству индустриальных разработок, нуждающихся во взаимодействии гаджетов и человека, интерес к этой проблеме возрос в последние годы. В данной работе представлен краткий обзор архитектур современных разговорных агентов (чат-ботов) по выдаче ответа пользователю, выделены основные преимущества и недостатки каждого подхода. Отдельно приведен краткий обзор и сравнительный анализ актуальных на сегодняшний день методов векторизации текстовых данных в задачах создания современных разговорных агентов. Представлены результаты эксперимента по созданию русскоязычного чат-бота ранжирующего типа: проанализированы особенности открытых источников данных с диалогами на русском языке, описан алгоритм обработки собранных данных для реализации бота, ранжирования ответов и выбора ответной реплики, опубликован итоговый набор данных и программный код. Также были проанализированы проблемы чат-ботов ранжирующего типа (на примере создания бота, поддерживающего беседу по узкопрофильной теме о пленочной фотографии). Кроме того, были проанализированы особенности открытых источников данных с диалогами на русском языке, доступных на сегодняшний день, собран и проанализирован необходимый набор данных для обучения чат-бота, продемонстрирована его работа, а также количественная оценка качества ответов пользователю. Авторы раскрывают проблематику оценки качества работы чат-ботов, в частности обсуждаются вопросы выбора метрик. Также демонстрируются примеры диалогов чат-бота, реализованного на моделях векторизации, давших хорошие показатели при автоматической оценке.