Выявление «токсичности» в социальных сетях на основании критерия семантической близости

Архив научных статей

Аннотация. Цель исследования заключается в проверке действенности метода автоматического выявления «токсичных» комментариев пользователей в социальных сетях на основании семантической близости. В статье проводится лингвистический анализ примеров «токсичного» поведения, определяются критерии «токсичности» и основные лексические и стилистические особенности «токсичных» текстов. Исследование последних работ по теме дает общее представление об актуальных методах выявления «токсичности». Выполняется тестирование решения для определения «токсичных» комментариев, основанного на идее отсутствия семантической близости между текстом поста и «токсичным» комментарием. Научная новизна состоит в том, что в работе впервые предлагается использовать критерий семантической близости для выявления «токсичных» комментариев, что представляет собой довольно простое и эффективное решение. Более того, в рамках наиболее популярной русскоязычной социальной сети «ВКонтакте» исследования такого рода ранее не проводилось. В результате исследования установлено, что определение семантической близости между постом и комментарием является достаточно эффективным способом определения релевантности комментария и, следовательно, его вероятного «токсичного» оттенка. Также было выяснено, что метрика косинусной близости подходит для проведения экспериментов по выявлению «токсичности», но для улучшения результатов может быть дополнена другими методами машинного обучения.