Мамаев Иван Дмитриевич
Балтийский государственный технический университет «Военмех» им. Д. Ф. Устинова; Санкт-Петербургский государственный университет
Дата поступления рукописи в редакцию: 23.02.2024
Аннотация. Цель исследования – выявление количественных закономерностей функционирования морфосинтаксических параметров текстов пользователей скрытых сетевых сообществ. В статье предпринята попытка подтвердить статистическими методами «спаянность» основных морфосинтаксических признаков, информация о которых была получена в лингвистическом процессоре Profiling-UD. Научная новизна исследования состоит в том, что на материале русскоязычного корпуса текстов социальных сетей проводится эксперимент по корреляционному анализу морфосинтаксических характеристик, которые могут стать частью будущего лингвистического профиля скрытых сообществ. Подобные профили могут использоваться в современных социальных сетях для улучшения функционала рекомендательных систем. В результате исследования было установлено, что для более 55% скрытых сообществ выделены значимые положительные корреляции со средней силой статистической значимости. Применяя предложенную методику, в дальнейшем лингвистический профиль скрытых сообществ можно расширить синтаксическими и лексическими параметрами, что позволит провести кластерный анализ сообществ и выявить гомогенность/гетерогенность использования характеристик различных языковых уровней в постах пользователей скрытых сообществ.
Ключевые слова и фразы: лингвистическое профилирование, корпус русскоязычных социальных сетей, морфосинтаксические характеристики постов, скрытые сообщества, linguistic profiling, corpus of Russian-language social media, morphosyntactic characteristics of posts, hidden communities
Открыть полный текст статьи в формате PDF. Бесплатный просмотрщик PDF-файлов можно скачать здесь.
Список литературы:
Бодрова Т., Тукмакова Н. Определение коэффициента ранговой корреляции частей речи в русских и чувашских газетных текстах // Мовознавчий вісник. 2012. № 14-15.
Конюшкевич М. Преобразование предложно-падежной синтаксемы в предикативную единицу: корреляция предлога и показателя связи сложного предложения // Лінгвістичні студії. 2013. № 26.
Корниенко Е. Р. Идиолект и идиостиль: к вопросу о соотнесении понятий // Филология: научные исследования. 2019. № 1.
Мамаев И. Д., Митрофанова О. А. Лингвистические параметры для идентификации скрытых сетевых сообществ // Terra Linguistica. 2024. Т. 15. № 1.
Мартыненко Г. Я., Гребенников А. О. Основы стилеметрии: учеб.-метод. пособие. СПб.: Изд-во С.-Петерб. ун-та, 2018.
Потебня А. А. Из записок по русской грамматике: в 4-х т. М.: Учпедгиз, 1958. Т. 1-2.
Русская грамматика / гл. ред. Н. Ю. Шведова. М.: Наука, 1980. Т. 1. Фонетика. Фонология. Ударение. Интонация. Словообразование. Морфология.
Тукмакова Н. П. Определение коэффициента взаимной сопряженности в русских и чувашских газетных текстах // Филологические науки. Вопросы теории и практики. 2020. Т. 13. Вып. 7.
Хохлова М. В., Рубинер В. И. К вопросу о количественном анализе предложно-падежных сочетаний в русском языке на примере законодательных текстов // Корпусная лингвистика – 2019: труды международной конференции. СПб., 2019.
Baumes J., Goldberg M., Magdon-Ismail M., Wallace W. A. Discovering hidden groups in communication networks // International Conference on Intelligence and Security Informatics. Berlin – Heidelberg: Springer Berlin Heidelberg, 2004.
Brunato D., Cimino A., Dell’Orletta F., Venturi G., Montemagni S. Profiling-UD: A tool for linguistic profiling of texts // Proceedings of the 12th Language Resources and Evaluation Conference. Marseille, 2020.
Curtotti M., McCreath E. C. A corpus of Australian Contract Language: Description, profiling and analysis // Proceedings of the 13th International Conference on Artificial Intelligence and Law. 2011. http://dx.doi.org/10.2139/ssrn.2304652
Hengeveld K. Parts-of-speech systems and morphological types // ACLC Working Papers. 2007. Vol. 2.
Lilliefors H. W. On the Kolmogorov-Smirnov test for normality with mean and variance 10 // Journal of the American Statistical Association. 1967. Vol. 62. No. 318.
Litvinova T., Sboev A., Panicheva P. Profiling the age of Russian bloggers // Conference on Artificial Intelligence and Natural Language. Cham: Springer International Publishing, 2018.
Mishra N., Schreiber R., Stanton I., Tarjan R. E. Clustering social networks // International Workshop on Algorithms and Models for the Web-Graph. Berlin – Heidelberg: Springer Berlin Heidelberg, 2007.
Panicheva P., Litvinova T. Authorship attribution in Russian in real-world forensics scenario // International Conference on Statistical Language and Speech Processing. Cham: Springer International Publishing, 2019.