Preview

Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация

Расширенный поиск

Автоматическое обнаружение и исправление деривационных ошибок в письменной речи на русском как иностранном

https://doi.org/10.25205/1818-7935-2021-19-3-57-68

Аннотация

Учебные корпуса представляют собой один из наиболее ценных источников статистических данных об ошибках учащихся. Например, информация из корпусов учащихся, которые изучают язык как иностранный, используется для исследований в области усвоения второго языка [Granger, 1996]. Однако достоверность содержащихся в корпусах данных зависит от качества разметки ошибок, которая чаще всего выполняется вручную и, таким образом, представляет собой трудоемкую и кропотливую процедуру для аннотаторов. Чтобы облегчить процесс разметки, в корпусах используются дополнительные инструменты, в частности спеллчекеры. В данной статье основное внимание уделяется созданию системы автоматического поиска и исправления словообразовательных ошибок. Этот тип ошибок, почти никогда не возникающий у взрослых носителей русского языка, но появляющийся у изучающих русский язык как иностранный [Chernigovskaya, Gor, 2000], был выбран потому, что их исправление вызывает большие сложности у существующих спеллчекеров. В рамках работы на материале Русского учебного корпуса (Russian Learner Corpus, http://www.web-corpora.net/RLC/) было протестировано два подхода, помогающих в решении данной проблемы. Первый, который основывается на принципе конечных автоматов [Dickinson, Herring, 2008], имеет целью обнаружить морфологические нарушения в текстах изучающих русский как иностранный. Второй, в основе работы которого лежит модель шумного канала [Brill and Moore, 2000], обеспечивает исправление выявленных ошибок. После тестирования эффективности этих двух подходов с учетом результатов их работы была предложена собственная система автокоррекции словообразовательных ошибок. В ней используются алгоритм обнаружения морфологических ошибок из подхода Dickinson, Herring и модель Continuous Bag of Words FastText, которая основывается на теории дистрибутивной семантики [Harris, 1954]. В дополнение к ним вводятся правила исправления для распространенных случаев словотворчества, а также словарь парадигм для приведения слова к той грамматической фор-ме, в которой было употреблено исправляемое слово. Результаты работы авторской системы были апробированы на данных Русского учебного корпуса и показали свою валидность.

Об авторах

А. С. Выренкова
Национальный исследовательский университет «Высшая школа экономики»
Россия


И. Ю. Смирнов
Национальный исследовательский университет «Высшая школа экономики»
Россия


Список литературы

1. Копотев М. Введение в корпусную лингвистику: электрон. учеб. пособие для студентов филологических и лингвистических специальностей университетов. Praha: Animedia, 2014.

2. Amaral, L., Detmar, M. Where does ICALL Fit into Foreign Language Teaching? In: Talk given at CALICO Conference. University of Hawaii, 2006.

3. Bojanowski, P., Grave, E., Joulin, A., Mikolov, T. Enriching word vectors with subword information. Transactions of the Association for Computational Linguistics, 2017, vol. 5, p. 135–146.

4. Brill, E., Moore, R. An Improved Error Model for Noisy Channel Spelling Correction. Proceedings of the 38th Annual Meeting of the Association for Computational Linguistics, 2000, p. 286–293.

5. Chernigovskaya T., Gor K. The Complexity of Paradigm and Input Frequencies in Native and Second Language Verbal Processing: Evidence from Russian. Language and Language Behavior (Eds. Erling Wande & Tatiana Chernigovskaya), 2000, p. 20–37.

6. Church, K., Gale, W. Probability scoring for spelling correction. Statistics and Computing, 1991, vol. 1, p. 93–103

7. Dickinson, M., Herring, J. Developing Online ICALL Resources for Russian. The 3rd workshop on innovative use of NLP for building educational applications, Columbus, OH, 2008, p. 1–9.

8. Granger, S. From CA to CIA and back: An integrated contrastive approach to computerized bilingual and learner corpora. In: Languages in Contrast. Text-based cross-linguistic studies, Lund University Press, 1996, p. 37–51.

9. Granger, S. Learner Corpora in Foreign Language Education. In: Language, Education and Technology, 2017, p. 1–14. DOI 10.1007/978-3-319-02328-1_33-1.

10. Harris, Z. Distributional Structure. WORD, 1954, vol. 10, iss. 2–3, p. 146–162. DOI 10.1080/00437956.1954.11659520

11. Heift, T., Devlan, N. Web delivery of adaptive and interactive language tutoring. International Journal of Artificial Intelligence in Education, 2001, vol. 12 (4), p. 310–325. Kernighan, M., Church, K., Gale, W. A Spelling Correction Program Based on a Noisy Channel Model. COLING-90, 1990, p. 205–210. DOI 10.3115/997939.997975.

12. Kernighan, M., Church, K., Gale, W. A Spelling Correction Program Based on a Noisy Channel Model. COLING-90, 1990, p. 205–210. DOI 10.3115/997939.997975.

13. Kopotev, M. Introduction to Corpus linguistics: Course-book for students of arts subjects with emphasis on the Russian language. Praha, Animedia, 2014. (in Russ.)

14. Kutuzov, A., Kuzmenko, E. WebVectors: A Toolkit for Building Web Interfaces for Vector Semantic Models. Ignatov D. et al. (eds) Analysis of Images, Social Networks and Texts. AIST 2016. Communications in Computer and Information Science, 2017, vol. 661. Springer, Cham.

15. Leacock, C., Chodorow, M., Gamon, M., Tetreau, J. Automated Grammatical Error Detection for Language Learners, 2nd ed. Synthesis Lectures on Human Language Technologies. 2014, vol. 7, p. 1–185. DOI 10.2200/S00562ED1V01Y201401HLT025

16. Nagata, N. An Effective Application of Natural Language. Processing in Second Language Instruction. CALICO Journal, 1995.

17. Paquot, M., Jarvis, S. Learner corpora and native language identification, 2015. DOI 10.1017/CBO9781139649414.027.

18. Rudzewitz, B., Ziai, R., De Kuthy, K., Möller, V., Nuxoll, F., Detmar, M. Generating Feedback for English Foreign Language Exercises. Proceedings of the Thirteenth Workshop on Innova-tive Use of NLP for Building Educational Applications (BEA), 2018, p. 127–136.

19. Shannon, C. A Mathematical Theory of Communication. Bell System Technical Journal, 1948, vol. 27, p. 379–423.

20. Shavrina, T., Shapovalova, O. To the methodology of corpus construction for machine learning: «Taiga» syntax tree corpus and parser. Proceedings of international conference CORPO-RA2017, 2017, p. 78–84.

21. Sorokin, A., Baytin, A., Galinskaya, I., Rykunova, E., Shavrina, T. SpellRuEval: the First Competition on Automatic Spelling Correction for Russian. Computational Linguistics and Intellectual Technologies Proceedings of the Annual International Conference “Dialogue”, 2016, p. 660–673.

22. Valdes, G. The teaching of heritage languages: an introduction for Slavicteaching professionals. Slavica, Bloomington, 2000, p. 375–403.


Рецензия

Для цитирования:


Выренкова А.С., Смирнов И.Ю. Автоматическое обнаружение и исправление деривационных ошибок в письменной речи на русском как иностранном. Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация. 2021;19(3):57-68. https://doi.org/10.25205/1818-7935-2021-19-3-57-68

For citation:


Vyrenkova A.S., Smirnov I.Yu. A New Approach to Automatic Detection and Correction of Derivational Errors in L2 Russian. NSU Vestnik. Series: Linguistics and Intercultural Communication. 2021;19(3):57-68. (In Russ.) https://doi.org/10.25205/1818-7935-2021-19-3-57-68

Просмотров: 370


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1818-7935 (Print)