Издательство ГРАМОТА - публикация научных статей в периодических изданиях
Pan-Art (входит в перечень ВАК)Педагогика. Вопросы теории и практики (входит в перечень ВАК)Филологические науки. Вопросы теории и практики (входит в перечень ВАК)Манускрипт (входит в перечень ВАК)

Архив научных статей

ИСТОЧНИК:    Филологические науки. Вопросы теории и практики (входит в перечень ВАК). Тамбов: Грамота, 2023. № 5. С. 1616-1620.
РАЗДЕЛ:    Филологические науки
Порядок опубликования статей | Показать содержание номера | Показать все статьи раздела | Предметный указатель

Лицензионное соглашение об использовании научных материалов.

https://doi.org/10.30853/phil20230252

Создание лингвистического корпуса на основе инструментов обработки естественного языка: планирование программных решений

Горожанов Алексей Иванович
Московский государственный лингвистический университет


Дата поступления рукописи в редакцию: 17.03.2023
Аннотация. Целью исследования является построение модели лингвистического корпуса, генерация которого происходит по правилам библиотеки обработки естественного языка spaCy. Научная новизна заключается в том, что в рамках гуманитарного исследования применяется метод моделирования, который сочетается с корпусным подходом и учитывает технологический (программный) компонент уже на стадии целеполагания. В ходе работы, во-первых, была определена общая структурная модель лингвистического корпуса в виде последовательности блоков и сформулированы типовые запросы к его базе данных, во-вторых, построена модель интерфейса корпусного менеджера, способного реализовать эти типовые запросы, и, в-третьих, проведен анализ предложенной модели с помощью отдельных мини-программ, позволяющих оценить степень технической реализуемости запросов и их практическую ценность. На этой стадии в качестве языкового материала были привлечены текстовые массивы художественных произведений немецкоязычных (Ф. Кафка, Э. М. Ремарк) и англоязычных (А. К. Дойл, Дж. Оруэлл) писателей. Полученные результаты показали, что построенная модель имеет ряд достоинств при ограниченном количестве недостатков, обладает параметром гибкости в плане дальнейшего развития и может быть программно реализована в краткосрочной перспективе.
Ключевые слова и фразы: моделирование, корпусная лингвистика, корпусный менеджер, графический интерфейс пользователя, spaCy, modelling, corpus linguistics, corpus manager, graphical user interface
Открыть полный текст статьи в формате PDF. Бесплатный просмотрщик PDF-файлов можно скачать здесь.
Список литературы:
  1. Бакаев М. А., Разумникова О. М. Определение сложности задач для зрительно-пространственной памяти и пропускной способности человека-оператора // Управление большими системами: сборник трудов. 2017. № 70.
  2. Бойко В. А., Легалов А. И., Зыков С. В. Архитектура интеллектуальной системы тестирования // Журнал Сибирского федерального университета. Серия «Техника и технологии». 2022. Т. 15. № 2. DOI: 10.17516/1999-494X-0390
  3. Горожанов А. И. Экспериментальное моделирование базы данных сбалансированного лингвистического корпуса // Филологические науки. Вопросы теории и практики. 2022. Т. 15. Вып. 10. DOI: 10.30853/phil20220563
  4. Горожанов А. И., Степанова Д. В. Составление сбалансированного корпуса художественного произведения (на материале романов Ф. Кафки) // Вестник Московского государственного лингвистического университета. Гуманитарные науки. 2022. № 7 (862). DOI: 10.52070/2542-2197_2022_7_862_31
  5. Писарик О. И. Принципы разработки базы данных подъязыка предметной области «Строительство» // Вестник Московского государственного лингвистического университета. Гуманитарные науки. 2021. № 5 (847). DOI: 10.52070/2542-2197_2021_5_847_150
  6. Читалов Д. И. Доработка графического интерфейса платформы OpenFOAM в части расширения перечня утилит для работы с расчетными сетками // Системы и средства информатики. 2022. Т. 32. № 1. DOI: 10.14357/08696527220113
  7. Fonseca C. A., Guelpeli M. V. C., De Souza Netto R. S. Representation of structured data of the text genre as a technique for automatic text processing // Texto Livre. 2021. Vol. 15. DOI: 10.35699/1983-3652.2022.35445
  8. Malyuga E. N., McCarthy M. “No” and “net” as response tokens in English and Russian business discourse: In search of a functional equivalence // Russian Journal of Linguistics. 2021. Vol. 25 (2). DOI: 10.22363/2687-0088-2021-25-2-391-416
  9. O’Neill H., Welsh A., Smith D. A., Roe G., Terras M. Text mining mill: Computationally detecting influence in the writings of John Stuart Mill from library records // Digital Scholarship in the Humanities. 2021. Vol. 36 (4). DOI: 10.1093/llc/fqab010
  10. Tsujii J. Natural language processing and computational linguistics // Computational Linguistics. 2021. Vol. 47 (4). DOI: 10.1162/COLI_a_00420

Порядок опубликования статей | Показать содержание номера | Показать все статьи раздела | Предметный указатель

© 2006-2024 Издательство ГРАМОТА

разработка и создание сайта, поисковая оптимизация: krav.ru