Расширение стандартного сбалансированного лингвистического корпуса, построенного по правилам spaCy, коннотативными характеристиками
Горожанов Алексей Иванович
Московский государственный лингвистический университет
Дата поступления рукописи в редакцию: 11.10.2023
Аннотация. Ставится цель разработать технологию автоматического определения тональности текста на базе имеющегося авторского программного комплекса. Научная новизна заключается в том, что в работе предлагается структурно-функциональная модель полностью автоматизированного процесса оценки тональности текста в совокупности с анализом его морфологических характеристик; также впервые вводятся технические термины «коннотативная амплитуда» и «коннотативная плотность». В ходе исследования была построена модель базы данных, которая вмещает коннотативные числовые параметры; далее, написан программный код «надстройки» генератора, которая позволяет дополнять стандартную базу данных этими параметрами; наконец, проведена апробация технологии на материале трех романов Ф. Кафки («Замок», «Процесс» и «Америка») и двух романов Э. М. Ремарка («На Западном фронте без перемен» и «Возлюби ближнего своего») на немецком языке. В результате доказывается, что «надстройка» является качественным программным продуктом, который не дает технических сбоев и способен предоставлять исследователю целый набор коннотативных данных для последующей комплексной интерпретации текста при условии качественного входного тонального словаря.
Ключевые слова и фразы: корпусная лингвистика, сбалансированный корпус, тональность текста, коннотация, немецкий язык, corpus linguistics, balanced corpus, sentiment of a text, connotation, German language
Открыть полный текст статьи в формате PDF. Бесплатный просмотрщик PDF-файлов можно скачать здесь.
Список литературы:
Алтышева М. А. Проблемы и методы анализа русскоязычных текстов на предмет идентификации тональности // Вестник Российского нового университета. Серия: Сложные системы: модели, анализ и управление. 2023. № 3.
Глушак В. М. Отрицание немецких полярных слов и выражений в автоматизированном анализе тональности текста // Филологические науки. Вопросы теории и практики. 2023. Т. 16. Вып. 10. https://doi.org/10.30853/phil20230510
Гончаров А. Р., Лысенкова С. А., Назин А. С. Формирование синонимичных рядов с экспертной оценкой для получения коэффициентов эмоциональности слов // Успехи кибернетики. 2023. Т. 4. № 2. https://doi.org/10.51790/2712-9942-2023-4-2-06
Горожанов А. И. Экспериментальное моделирование базы данных сбалансированного лингвистического корпуса // Филологические науки. Вопросы теории и практики. 2022. Т. 15. Вып. 10. https://doi.org/10.30853/phil20220563
Горожанов А. И., Степанова Д. В. Составление сбалансированного корпуса художественного произведения (на материале романов Ф. Кафки) // Вестник Московского государственного лингвистического университета. Гуманитарные науки. 2022. № 7 (862). https://doi.org/10.52070/2542-2197_2022_7_862_31
Груздева А. С., Юрьев Р. Н., Бессмертный И. А. Применение волновой модели текста к задаче сентимент-анализа // Научно-технический вестник информационных технологий, механики и оптики. 2022. Т. 22. № 6. https://doi.org/10.17586/2226-1494-2022-22-6-1159-1165
Комарова Е. В. Проблема цифрового этикета в русских и английских медиатекстах: на материале миграционного дискурса // Медиалингвистика. 2023. Т. 10. № 2. https://doi.org/10.21638/spbu22.2023.207
Логинова А. О. Подходы к обнаружению социальных интернет-ботов // Информация и безопасность. 2022. Т. 25. № 2. https://doi.org/10.36622/VSTU.2022.25.2.005
Панфилова А. С., Ушаков Д. В. Эмоциональный тон российского, итальянского, немецкого и французского новостного интернет-контента в период разворачивания пандемии COVID-19 // Психология. Журнал Высшей школы экономики. 2022. Т. 19. № 3. https://doi.org/10.17323/1813-8918-2022-3-562-586
Пронина Е. В., Пронин Д. Д. Исследовательский потенциал изучения корпуса произведений русской литературы с помощью цифровых лингвистических методов и технологий искусственного интеллекта (проект Lensky) // Современный ученый. 2023. № 3.
Раббимов И. М. Алгоритм построения ансамбля деревьев решений для сентиментального анализа текста // Проблемы вычислительной и прикладной математики. 2022. № 6 (45).
Рудаковский Я. С. Анализ тональности решений по денежно-кредитной политике Национального банка Республики Беларусь с помощью методов машинного обучения // Белорусский экономический журнал. 2023. № 3 (104). https://doi.org/10.46782/1818-4510-2023-3-115-126
Семенова М. О. Подходы к сентимент-анализу // Вестник Московского государственного лингвистического университета. Гуманитарные науки. 2022. № 12 (867). https://doi.org/10.52070/2542-2197_2022_12_867_83