Экспериментальное моделирование базы данных сбалансированного лингвистического корпуса
Горожанов Алексей Иванович
Московский государственный лингвистический университет
Дата поступления рукописи в редакцию: 04.09.2022
Аннотация. Целью исследования является построение функционирующей экспериментальной модели реляционной базы данных для оперирования сбалансированным лингвистическим корпусом художественного произведения. Научная новизна заключается в том, что впервые в рамках гумани-тарного исследования проводится моделирование базы данных лингвистического корпуса с тща-тельным описанием и учетом технических деталей и с опорой на положения авторской концепции профессионально ориентированного программирования. Работа состояла из трех этапов: формиро-вания технического задания (разработана структура двух таблиц реляционной базы данных, выбран формат SQLite, предусмотрены дополнительные колонки таблиц для последующего расширения содержания исследований), написания программного кода создания и наполнения базы данных (ис-пользованы язык программирования Python, модуль обработки естественного языка spaCy) и его апробации на материале текстов трех романов Ф. Кафки «Замок», «Америка» и «Процесс» (получены три функционирующие базы данных). Результаты показали, что современные про-граммные инструменты обработки естественного языка позволяют автоматически создавать пол-ноценные базы данных для обработки запросов SQL, которые впоследствии возможно расширять в ручном или автоматическом режиме.
Ключевые слова и фразы: реляционная база данных, корпусная лингвистика, профессионально ориентированное программирование, SQLite, spaCy, relational database, corpus linguistics, professionally oriented programming
Открыть полный текст статьи в формате PDF. Бесплатный просмотрщик PDF-файлов можно скачать здесь.
Список литературы:
Горожанов А. И., Гусейнова И. А. Прикладные аспекты анализа и интерпретации текстов (на материале немецкого и русского языков). Казань: Бук, 2021.
Лесников С. В. Формирование гипертекстового корпуса учебных словарей русского языка // Филологические науки. Научные доклады высшей школы. 2021. № 4. DOI: 10.20339/PhS.4-21.027
Писарик О. И. Принципы разработки базы данных подъязыка предметной области «Строительство» // Вестник Московского государственного лингвистического университета. Гуманитарные науки. 2021. № 5 (847). DOI: 10.52070/2542-2197_2021_5_847_150
Хохлова М. В. Атрибутивные коллокации в золотом стандарте сочетаемости русского языка и их представление в словарях и корпусах текстов // Вопросы лексикографии. 2021. № 21. DOI: 10.17223/22274200/21/2
Ayre K., Bittar A., Kam J., Verma S., Howard L. M., Dutta R. Developing a Natural Language Processing Tool to Identify Perinatal Self-Harm in Electronic Healthcare Records // PLoS ONE. 2021. No. 16 (8). DOI: 10.1371/journal.pone.0253809
Gorozhanov A. I., Guseynova I. A. Programming for Specific Purposes in Linguistics: A New Challenge for the Humanitarian Curricula // Training, Language and Culture. 2020. Vol. 4. No. 4. DOI: 10.22363/2521-442X-2020-4-4-23-38
Jugran S., Kumar A., Tyagi B. S., Anand V. Extractive Automatic Text Summarization Using SpaCy in Python NLP // 2021 International Conference on Advance Computing and Innovative Technologies in Engineering, ICACITE 2021. Greater Noida, 2021. DOI: 10.1109/ICACITE51222.2021.9404712
Mizrahi M., Dickinson M. A. Philosophical Reasoning about Science: A Quantitative, Digital Study // Synthese. 2022. Vol. 200. No. 2. DOI: 10.1007/s11229-022-03670-6
Okhapkin V. P., Okhapkina E. P., Iskhakova A. O., Iskhakov A. Y. Constructing of Semantically Dependent Patterns Based on SpaCy and StanfordNLP Libraries // Communications in Computer and Information Science (in Books). 2021. Vol. 1395. DOI: 10.1007/978-981-16-1480-4_45
Verma A., Sikarvar V., Yadav H., Jaganathan R., Kumar P. Shabd: A Psycholinguistic Database for Hindi // Behavior Research Methods. 2022. Vol. 54. No. 2. DOI: 10.3758/s13428-021-01625-2