Выявление «токсичности» в социальных сетях на основании критерия семантической близости
Курганская Екатерина Владимировна, Степанова Наталия Валентиновна
Санкт-Петербургский государственный электротехнический университет «ЛЭТИ» им В. И. Ульянова (Ленина)
Дата поступления рукописи в редакцию: 26.02.2024
Аннотация. Цель исследования заключается в проверке действенности метода автоматического выявления «токсичных» комментариев пользователей в социальных сетях на основании семантической близости. В статье проводится лингвистический анализ примеров «токсичного» поведения, определяются критерии «токсичности» и основные лексические и стилистические особенности «токсичных» текстов. Исследование последних работ по теме дает общее представление об актуальных методах выявления «токсичности». Выполняется тестирование решения для определения «токсичных» комментариев, основанного на идее отсутствия семантической близости между текстом поста и «токсичным» комментарием. Научная новизна состоит в том, что в работе впервые предлагается использовать критерий семантической близости для выявления «токсичных» комментариев, что представляет собой довольно простое и эффективное решение. Более того, в рамках наиболее популярной русскоязычной социальной сети «ВКонтакте» исследования такого рода ранее не проводилось. В результате исследования установлено, что определение семантической близости между постом и комментарием является достаточно эффективным способом определения релевантности комментария и, следовательно, его вероятного «токсичного» оттенка. Также было выяснено, что метрика косинусной близости подходит для проведения экспериментов по выявлению «токсичности», но для улучшения результатов может быть дополнена другими методами машинного обучения.
Ключевые слова и фразы: токсичность в социальных сетях, релевантность комментариев, семантическая близость, векторные вложения слов, toxicity in social networks, relevance of comments, semantic proximity, word vector embeddings
Открыть полный текст статьи в формате PDF. Бесплатный просмотрщик PDF-файлов можно скачать здесь.
Список литературы:
Арутюнова Н. Д. Дискурс // Лингвистический энциклопедический словарь / отв. ред. В. Н. Ярцева. М.: СЭ, 1990.
Буряковская В. А., Дмитриева О. А. Квазинаучный термин «токсичный» в современной блогосфере (на материале русского, английского и французского языков) // Известия Волгоградского государственного педагогического университета. 2022. № 5 (168).
Галичкина Е. Н. Специфика компьютерного дискурса на английском и русском языках: на материале жанра компьютерных конференций: дисс. … к. филол. н. Астрахань, 2001.
Грибовод Е. Г. Дискурс // Дискурс-Пи. 2013. Т. 10. № 3.
Ефанова А. А., Осокин А. А. Дискурс социальных медиа: к проблеме интерпретации // Вопросы теории и практики журналистики. 2022. Т. 11. № 3.
Ионова С. В. Токсичный руководитель: лингвоэкология речевого поведения // Экология языка и коммуникативная практика. 2018. № 4.
Карасик В. И. Жанры сетевого дискурса // Жанры речи. 2019. № 1 (21).
Красных В. В. Этнопсихолингвистика и лингвокультурология: курс лекций. М.: Гнозис, 2002.
Лутовинова О. В. Лингвокультурологические характеристики виртуального дискурса. Волгоград: ВГПУ; Перемена, 2009.
Овинова Л. Н., Шрайбер Е. Г. «Токсичное» педагогическое общение: анализ состояния, причины и признаки // Вестник Южно-Уральского государственного университета. Серия: Образование. Педагогические науки. 2022. Т. 14. № 3.
Павлов М. А. Понятие сетевого дискурса в современной лингвистике // Наука и образование: новое время. 2017. № 1.
Платонов Е. Н., Руденко В. Ю. Выявление и классификация токсичных высказываний методами машинного обучения // Моделирование и анализ данных. 2022. Т. 12. № 1.
Русанов Е. К. Интернет-дискурс в дискурсивной парадигме // Гуманитарные юридические исследования. 2016. № 1.
Рябова А. С. Лингвистические особенности англоязычного дискурса социальных сетей // Огарёв-Online. 2020. № 6 (143)
Сундиев И. Ю., Смирнов А. А. «Токсичный» контент в сети Интернет и его влияние на радикализацию молодежи // Научный портал МВД России. 2020. № 4 (52).
Ушаков А. А. Интернет-дискурс как особый тип речи // Вестник Адыгейского государственного университета. Серия 2: Филология и искусствоведение. 2010. № 4.
Юртаева Е. С. Характеристики виртуальной языковой личности в коммуникативном пространстве Интернет-дискурса // Иностранные языки в контексте межкультурной коммуникации: материалы докладов VIII международной конференции. Саратов, 2016.
Aken B. van, Risch J., Krestel R., Löser A. Challenges for Toxic Comment Classification: An In-Depth Error Analysis // Proceedings of the 2nd Workshop on Abusive Language Online (ALW2) / ed. by D. Fišer, R. Huang, V. Prabhakaran, R. Voigt, Z. Waseem, J. Wernimont. Brussels, 2018. https://doi.org/10.18653/v1/W18-5105
Andrusyak B., Rimel M., Kern R. Detection of Abusive Speech for Mixed Sociolects of Russian and Ukrainian Languages // Proceedings of Recent Advances in Slavonic Natural Language Processing, RASLAN 2018. Karlova Studánka, 2018.
Bakarov A., Gureenkova O. Automated Detection of Non-Relevant Posts on the Russian Imageboard “2ch”: Importance of the Choice of Word Representations // Analysis of Images, Social Networks and Texts. AIST 2017 / ed. by W. M. P. van der Aalst, D. I. Ignatov, M. Khachay, S. O. Kuznetsov, V. Lempitsky, I. A. Lomazova, N. Loukachevitch, A. Napoli, A. Panchenko, P. M. Pardalos, A. V. Savchenko, S. Wasserman. Cham: Springer, 2017. https://doi.org/10.1007/978-3-319-73013-4_2
Hao L., Weiguan M., Hanyan L. Toxic Comment Detection and Classification. 2018. https://cs229.stanford.edu/proj2019spr/report/71.pdf
Khieu K., Narwal N. Detecting and Classifying Toxic Comments. 2019. https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1184/reports/6837517.pdf
Risch J., Krestel R. Toxic Comment Detection in Online Discussions // Deep Learning-Based Approaches for Sentiment Analysis / ed. by Dr. B. Agarwal, Dr. R. Nayak, Dr. N. Mittal, Prof. S. Patnaik. Singapore: Springer, 2020.
Smetanin S. Toxic Comments Detection in Russian // Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialogue 2020” (Moscow, June 17-20). Moscow, 2020.