Preview

Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация

Расширенный поиск

Сравнение моделей векторного представления текстов в задаче создания чат-бота

https://doi.org/10.25205/1818-7935-2020-18-3-16-34

Аннотация

На сегодняшний день одним из стремительно развивающихся направлений научных исследований является создание разговорного интеллекта, способного поддерживать полноценный человеко-машинный диалог на произвольное количество тем. Благодаря большому количеству индустриальных разработок, нуждающихся во взаимодействии гаджетов и человека, интерес к этой проблеме возрос в последние годы. В данной работе представлен краткий обзор архитектур современных разговорных агентов (чат-ботов) по выдаче ответа пользователю, выделены основные преимущества и недостатки каждого подхода. Отдельно приведен краткий обзор и сравнительный анализ актуальных на сегодняшний день методов векторизации текстовых данных в задачах создания современных разговорных агентов. Представлены результаты эксперимента по созданию русскоязычного чат-бота ранжирующего типа: проанализированы особенности открытых источников данных с диалогами на русском языке, описан алгоритм обработки собранных данных для реализации бота, ранжирования ответов и выбора ответной реплики, опубликован итоговый набор данных и программный код. Также были проанализированы проблемы чат-ботов ранжирующего типа (на примере создания бота, поддерживающего беседу по узкопрофильной теме о пленочной фотографии). Кроме того, были проанализированы особенности открытых источников данных с диалогами на русском языке, доступных на сегодняшний день, собран и проанализирован необходимый набор данных для обучения чат-бота, продемонстрирована его работа, а также количественная оценка качества ответов пользователю. Авторы раскрывают проблематику оценки качества работы чат-ботов, в частности обсуждаются вопросы выбора метрик. Также демонстрируются примеры диалогов чат-бота, реализованного на моделях векторизации, давших хорошие показатели при автоматической оценке.

Об авторах

Ю. А. Жеребцова
Национальный исследовательский университет ИТМО
Россия


А. В. Чижик
Национальный исследовательский университет ИТМО; Санкт-Петербургский государственный университет
Россия


Рецензия

Для цитирования:


Жеребцова Ю.А., Чижик А.В. Сравнение моделей векторного представления текстов в задаче создания чат-бота. Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация. 2020;18(3):16-34. https://doi.org/10.25205/1818-7935-2020-18-3-16-34

For citation:


Zherebtsova Y.A., Chizhik A.V. Text Vectorization Methods for Retrieval-Based Chatbot. NSU Vestnik. Series: Linguistics and Intercultural Communication. 2020;18(3):16-34. (In Russ.) https://doi.org/10.25205/1818-7935-2020-18-3-16-34

Просмотров: 616


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1818-7935 (Print)