Алгоритмы поиска фразеологизмов в лингвистическом корпусе с морфологической разметкой (индоевропейские языки)
Горожанов Алексей Иванович
Московский государственный лингвистический университет
Дата поступления рукописи в редакцию: 09.12.2023
Аннотация. Цель настоящего прикладного исследования – построить алгоритмы поиска фразеологизмов, совместимые с разработанной нами ранее моделью лингвистического корпуса с морфологической разметкой по правилам NLP-библиотеки spaCy. Научная новизна обусловлена тем, что впервые в русле корпусного подхода предлагается набор универсальных способов поиска фразеологизмов с минимальной долей ручного труда и с применением элементов сквозных цифровых технологий. В ходе исследования были описаны технические параметры подлежащих поиску фразеологизмов; изучены возможности авторского корпусного менеджера в рамках ручного и специального ручного запросов; разработаны и апробированы на материале репрезентативного корпуса текстов немецкоязычных СМИ два алгоритма для двухступенчатого поиска отдельных фразеологических единиц и их групп; приведены развернутые примеры результатов поисковых запросов. В результате доказывается состоятельность разработанных алгоритмов, экспериментально устанавливается, что погрешность при поиске лежит в допустимом диапазоне 0-14,8%.
Ключевые слова и фразы: корпусная лингвистика, корпусный менеджер, обработка естественного языка, фразеология, немецкий язык, corpus linguistics, corpus manager, natural language processing, phraseology, German language
Открыть полный текст статьи в формате PDF. Бесплатный просмотрщик PDF-файлов можно скачать здесь.
Список литературы:
Бирюков А. А., Терещенко И. А. Перспективы применения технологии обработки естественного языка в рамках цифровой трансформации экономики РФ и построения цифрового общества // Информационное общество. 2023. № 2.
Богуславская И. В. Предикатные конструкции с дистантным расположением компонентов: структура и семантика глагольно-именных предикативных сочетаний в немецком языке: автореф. дисс. … к. филол. н. СПб., 1997.
Виноградов В. В. Об основных типах фразеологических единиц в русском языке // Виноградов В. В. Избранные труды. Лексикология и лексикография. М.: Наука, 1977.
Голубкова Е. Е., Бухарова А. А. Загадки конструкции XYZ(W): корпусный подход // От слова к дискурсу: взаимодействие форм и (не)предсказуемость смыслов: тез. междунар. науч. конференции (г. Минск, 12-13 мая 2023 г.) / Минский государственный лингвистический университет. Мн.: МГЛУ, 2023.
Гусейнова И. А. Актуальные вопросы современной немецкой лексикологии и фразеологии: учеб. пособие для студентов бакалавриата, обучающихся по направлению подготовки 45.03.02 Лингвистика. Казань: Бук, 2023.
Давыдова М. А. Фразеологические единицы в теории и практике обучения РКИ на продвинутом этапе: узус и окказиональное употребление // Вестник Московского университета. Серия 19: Лингвистика и межкультурная коммуникация. 2023. № 4.
Киселева Л. А. Натурморфные образы в славянской и тюркской эмотивной фразеологии: параллели и контрасты // Вестник Волгоградского государственного университета. Серия 2: Языкознание. 2023. Т. 22. № 1.
Кротова Е. Б. Фразеологизмы-конструкции в корпусе: особенности поиска и анализа выдачи (на материале немецкого языка) // Лингвистика и методика преподавания иностранных языков. 2022. № 2 (17). https://doi.org/10.37892/2218-1393-2022-17-2-76-90
Нефедова Л. А. Гендерно инклюзивная фразеология современного немецкого языка: симметрия фразеологизмов в свете гендера. М.: МПГУ, 2023.
Никитина Т. Г. Библейские образы в устойчивых сравнениях славян: типы межъязыковых соответствий и их словарная репрезентация // Русин. 2023. № 71.
Парина И. С. Применение корпусов параллельных текстов для исследования немецкой фразеологии в сопоставительном аспекте // Русская германистика: ежегодник Российского союза германистов (г. Коломна, 28-30 ноября 2019 г.) / Нижегородский государственный лингвистический университет им. Н. А. Добролюбова, Российский союз германистов. Коломна: ФЛИНТА, 2020. Т. XVII.
Соколова Т. С., Старикова Г. Н. Фразеологические единицы с названиями времен суток и их производными как реализация номинативно-деривационного потенциала исходных слов // Вестник Томского государственного университета. Филология. 2023. № 82. https://doi.org/10.17223/19986645/82/8
Титова О. В. Лексика, связанная с жилищем, во фразеологизмах и паремиях удмуртского языка // Вестник угроведения. 2023. Т. 13. № 2. https://doi.org/10.30624/2220-4156-2023-13-2-293-301
Шанский Н. М. Фразеология современного русского языка. М.: ЛИБРОКОМ, 2012.
Юсипова Д. Б. Корпусный подход к исследованию фразеологии: анализ фразеологизмов семантического поля Пространство // Вестник Московского государственного областного университета. Серия: Лингвистика. 2022. № 3-1. https://doi.org/10.18384/2310-712X-2022-3-38-45