ВОЗМОЖНОСТЬ АВТОМАТИЗАЦИИ ПРОЦЕССА ПОИСКА ЦЕЛЕВОЙ АУДИТОРИИ В «ВКОНТАКТЕ» С ИСПОЛЬЗОВАНИЕМ ДАННЫХ ОБ ОЦЕНКАХ ПОЛЬЗОВАТЕЛЕЙ ДРУГОЙ СОЦИАЛЬНОЙ СЕТИ

Data publicației

19.06.2020


Editor

Федеральное государственное бюджетное образовательное учреждение высшего образования «Пензенский государственный технологический университет»


Numele ediției

XXI век: итоги прошлого и проблемы настоящего плюс, № 2(50) 19.06.2020


DOI

10.46548/21vek-2020-0950-0027


Autor(i)

Коростелев Александр Владимирович - Пензенский государственный технологический университет

Мартышкин Алексей Иванович - Пензенский государственный технологический университет


Adnotare(Adnotări)

Статья посвящена исследованию вопросов, связанных с возможностью автоматизации процесса поиска целевой аудитории в социальной сети «Вконтакте» с использованием данных об оценках пользователей другой социальной сети. Установлено, что одним из наиболее популярных и эффективных видов маркетинга является таргетированный маркетинг, позволяющий оптимизировать рекламные кампании и нацелить их на потенциальных клиентов. Применяя технологии интеллектуального анализа данных на оценках пользователей, можно установить различные группы кинолюбителей, схожих по интересам. Имея информацию о сообществах этих групп в социальных сетях, представляется возможным установить оптимальные ресурсы для проведения рекламных кампаний и найти большое количество потенциальных клиентов. Подробно описаны данные с портала «Кинопоиск», необходимые для дальнейшего анализа и кластеризации, а также методы их сбора. Построены парсеры, специализированные под нужды исследования, при помощи которых получена информация об оценках пользователей, проставленных недавно вышедшим фильмам. Рассмотрены основные методы кластеризации, а также способы валидации результатов кластерного анализа. В качестве способа сокращения признакового пространства предложен метод главных компонент. Алгоритмы k-means, pam, CLARA и иерархическая кластеризация применены к набору данных с оценками пользователей «Кинопоиска». Согласно определенным метрикам качества, оптимальной кластеризацией оказалась иерархическая кластеризация на 3 кластера датасета, преобразованного с помощью метода главных компонент. Модель классификации была построена при помощи алгоритмов бэггинга, бустинга, дерева решений и метода опорных векторов. Наилучший результат показал классификатор, основанный на дереве решений - его средняя точность составила более 80%.


Textul complet al articolului
Коростелев.pdf