Проблемы извлечения слабоструктурированной текстовой информации на основе технологии Text Mining (на материале русского и чувашского языков)
Губанов Алексей Рафаилович, Данилов Андрей Анатольевич, Исаев Юрий Николаевич, Губанова Галина Федоровна
Чувашский государственный университет имени И. Н. Ульянова
Чувашский государственный институт гуманитарных наук
Дата поступления рукописи в редакцию: 10.07.2024
Аннотация. Цель исследования – выявить модели и алгоритмы обработки текстовой информации, связанные с модальной коррекцией схем интенциональных отношений в разноструктурных языках на основе технологии Text Mining. Рост потоков разнородной текстовой информации в Интернете, состоящей из сложноорганизованных документов, ставит перед аналитиками проблемы, связанные с дифференцированным извлечением знаний (в интеллектуальном анализе разнородной текстовой информации используется технология Text Mining). В статье предложен подход к анализу информации модальной коррекции схем интенциональных смысловых отношений (ИСО) в разноструктурных языках на основе методов компьютерной лингвистики и Text Mining. При помощи библиотеки Language Resources проведен анализ русских и чувашских корпусов в БД Datastores (перенос информации на основе анализа проблем интеграции и совместимости данных с различными типами документов из разных источников). На основе предложенного концептуального подхода осуществляется кластеризация (кластеров документов, текстового корпуса). Научная новизна исследования состоит в разработке комплекса моделей и алгоритмов для анализа интенциональных отношений в разноструктурных языках – русском и чувашском, обеспечивающих точность и полноту в извлечении информации в поисковых запросах. Акцентируется внимание на контенте лингвистических ресурсов, проводится классификация лингвистических ресурсов по классам-модусам ИСО, определяется подход к формализации лексико-синтаксических шаблонов, на их основе решается задача построения таксономии концепта ИСО. В результате исследования установлено, что предлагаемый метод эффективен для решения задач интеллектуального анализа текстов и интерпретации его результатов.
Ключевые слова и фразы: искусственный интеллект, разноструктурные языки, интенциональные смысловые отношения (ИСО), Text Mining, GATE, Data Mining, artificial intelligence, languages with different structures, intentional semantic relations
Открыть полный текст статьи в формате PDF. Бесплатный просмотрщик PDF-файлов можно скачать здесь.
Список литературы:
Белоногов Г. Г., Гиляревский Р. С., Хорошилов А. А. Проблемы автоматической смысловой обработки текстовой информации // Научно-техническая информация. Серия 2: Информационные процессы и системы. 2012. № 11.
Большакова Е. И., Баева Н. В., Бордаченкова Е. А., Васильева Н. Э., Морозов С. С. Лексико-синтаксические шаблоны в задачах автоматической обработки // Компьютерная лингвистика и интеллектуальные технологии: труды международной конференции «Диалог 2007». М.: РГГУ, 2007.
Большакова Е. И., Носков А. А. Программные средства анализа текстов на основе лексико-синтаксических шаблонов языка LSPL // Программные системы и инструменты: тематический сборник. 2010. № 11.
Губанов А. Р. Машинный фонд чувашского языка и его компоненты // Актуальные вопросы истории и культуры чувашского народа: сборник. Чебоксары: ЧГИГН, 2013.
Губанов А. Р. Морфологический стандарт для систем автоматической обработки текстов на чувашском языке и архитектура грамматического словаря // Актуальные вопросы истории и культуры чувашского народа: сборник статей. Чебоксары: ЧГИГН, 2015a. Вып. 3.
Губанов А. Р. Национальный корпус чувашского языка: создание лексического поисковика в системе Java // Актуальные вопросы истории и культуры чувашского народа: сборник статей. Чебоксары: ЧГИГН, 2015b. Вып. 3.
Губанов А. Р. Семантико-синтаксические особенности предложений с предикатами интенционального состояния в русском и чувашском языках // Высшая школа – народному хозяйству Чувашии. Гуманитарные науки: тез. докл. / Чуваш. гос. ун-т им. И. Н. Ульянова. Чебоксары, 1992.
Губанов А. Р., Губанова Г. Ф., Свеклова О. В. Тезаурус чувашского языка (чăваш пĕлĕвĕн мулĕ) как языковая система знаний // Вестник Чувашского университета. Гуманитарные науки. 2017. № 2.
Губанов А. Р., Кожемякова Е. А., Губанова Г. Ф. Онтологические модели пословиц как прецедентных текстов (на материале разноструктурных моделей в русском и чувашском языках) // Этническая культура. 2023. Т. 5. № 2.
Ермаков А. Е., Плешко В. В. Семантическая интерпретация в системах компьютерного анализа текста // Информационные технологии. 2009. Т. 6.
Заюкова Е. В. Семантические и прагматические особенности лексических средств выражения интенциональности // Актуальные проблемы гуманитарного знания: материалы региональной научно-практической конференции молодых ученых. Барнаул, 2004.
Каменский М. В. Лингвистическая платформа GATE как среда автоматизированного анализа когнитивно-функциональных свойств дискурсных маркеров // Вестник Северо-Кавказского федерального университета. 2014. № 3 (42).
Клушина Н. И. Интенциональный метод в современной лингвистической парадигме // Медиастилистика. 2012. Вып. 4.
Лукашевич Н. В. Тезаурусы в задачах информационного поиска. М.: Изд-во Московского ун-та, 2011.
Макаревич Т. И. Интеллектуальный анализ текстовой информации в специализированных областях в системе электронного правительства // Цифровая трансформация. 2019. № 2 (7).
Мусаев А. А., Григорьев Д. А. Обзор современных технологий извлечения знаний из текстовых сообщений // Компьютерные исследования и моделирование. 2021. Т. 13. № 6.
Осипов Г. С., Смирнов И. В. Семантический анализ научных текстов и их больших массивов // Системы высокой доступности. 2016. № 1.
Смирнов И. В. Интеллектуальный анализ текстов на основе методов разноуровневой обработки естественного языка: монография. М.: ФИЦ ИУ РАН, 2023а.
Смирнов И. В. Разноуровневая обработка естественного языка для интеллектуального поиска и анализа текстов // Искусственный интеллект и принятие решений. 2023b. № 1.
Тихомиров И. А., Смирнов И. В. Применение методов лингвистической семантики и машинного обучения для повышения точности и полноты поиска в поисковой машине Exactus // Труды международной конференции «Диалог 2009». М., 2009.
Тузов В. А. Компьютерная семантика русского языка. СПб.: Изд-во С.-Петерб. ун-та, 2004.
Чеповский А. М. Информационные модели в задачах обработки текстов на естественных языках. М.: Национальный открытый университет «Интуит», 2014.
Швец А. В. Взаимодействие информационных и лингвистических методов в задачах анализа качества научных текстов: дисс. … к. техн. н. М., 2015.
Шелманов А. О. Исследование методов автоматического анализа текстов и разработка интегрированной системы семантико-синтаксического анализа: дисc. … к. техн. н. М., 2015.