Создание лингвистического корпуса на основе инструментов обработки естественного языка: планирование программных решений

Архив научных статей

Аннотация. Целью исследования является построение модели лингвистического корпуса, генерация которого происходит по правилам библиотеки обработки естественного языка spaCy. Научная новизна заключается в том, что в рамках гуманитарного исследования применяется метод моделирования, который сочетается с корпусным подходом и учитывает технологический (программный) компонент уже на стадии целеполагания. В ходе работы, во-первых, была определена общая структурная модель лингвистического корпуса в виде последовательности блоков и сформулированы типовые запросы к его базе данных, во-вторых, построена модель интерфейса корпусного менеджера, способного реализовать эти типовые запросы, и, в-третьих, проведен анализ предложенной модели с помощью отдельных мини-программ, позволяющих оценить степень технической реализуемости запросов и их практическую ценность. На этой стадии в качестве языкового материала были привлечены текстовые массивы художественных произведений немецкоязычных (Ф. Кафка, Э. М. Ремарк) и англоязычных (А. К. Дойл, Дж. Оруэлл) писателей. Полученные результаты показали, что построенная модель имеет ряд достоинств при ограниченном количестве недостатков, обладает параметром гибкости в плане дальнейшего развития и может быть программно реализована в краткосрочной перспективе.