ИССЛЕДОВАНИЕ ГРУПП ПОЛЬЗОВАТЕЛЕЙ В СОЦИАЛЬНЫХ СЕТЯХ ПО ИХ ИНТЕРЕСАМ И ПОВЕДЕНИЮ НА ОСНОВЕ МНОЖЕСТВА ИСТОЧНИКОВ ДАННЫХ

Жарияланған күні

21.12.2020

Баспа

Федеральное государственное бюджетное образовательное учреждение высшего образования «Пензенский государственный технологический университет»

Басылым атауы

XXI век: итоги прошлого и проблемы настоящего плюс, № 4(52) 21.12.2020

DOI

10.46548/21vek-2020-0951-0005

Автор(лар)

Мартышкин Алексей Иванович - Пензенский государственный технологический университет

Перекусихина Альбина Николаевна - Пензенский государственный университет архитектуры и строительства

Зоткина Алена Александровна - Пензенский государственный технологический университет

Аннотация(лар)

В статье предложен подход к автоматизированному анализу данных социальных сетей, позволяющий определять, принадлежат ли публичные сообщества и пользователи к подгруппе групп пользователей интернет-ресурсов, имеющих социальную составляющую. Рассмотрена задача восстановления данных пользователей и подзадача выделения групп пользователей, а также описаны методы решений, основанные на различных видах данных и различных моделях. Описаны некоторые алгоритмы и методики, используемые при анализе текста, а также при решении задач структурного машинного обучения. Приведенные методики и алгоритмы использовались при решении поставленной в статье задачи. После описания процесса решения задачи показан проведенный эксперимент для апробации предлагаемого подхода. На примере задачи определения подгрупп радикальных футбольных фанатов из группы футбольных болельщиков показана состоятельность предлагаемого подхода. Результаты исследования показали, что тривиальная оценка схожести может работать на определенных данных, однако имеет большую сложность в связи с необходимостью составления правильного словаря для подгруппы. При неточном его составлении, качестве результатов значительно падает. Исследуемая модель показывает рост точности с использованием большего числа шагов, а значит большего числа узлов графа. Использование латенто-семантического анализа дало возможность улучшить результаты. Предложенный подход с использованием оценки схожести, основанной на операторе «ИЛИ» дал много ложноположительных определений членов подгруппы, однако показал абсолютную полноту. При использовании оценки схожести, основанной на линейной комбинации, получается максимальная точность. Предложенный подход позволяет при наличии малой обучающей выборки получать приемлемый результат. В заключение приведены основные выводы по проделанной работе.

Мақаланың толық мәтіні

30-35.pdf