ОБНАРУЖЕНИЕ СПАМА В СМС-СООБЩЕНИЯХ С ИСПОЛЬЗОВАНИЕМ ТЕХНОЛОГИЙ WORD EMBEDDING И TERM FREQUENCY- INVERSE DOCUMENT FREQUENCY (TF-IDF)

Data publicației

19.06.2020


Editor

Федеральное государственное бюджетное образовательное учреждение высшего образования «Пензенский государственный технологический университет»


Numele ediției

XXI век: итоги прошлого и проблемы настоящего плюс, № 2(50) 19.06.2020


DOI

10.46548/21vek-2020-0950-0026


Autor(i)

Аббаси Мохсин Маншад - Удмуртский государственный университет (УдГУ)

Бельтюков Анатолий Петрович - Удмуртский государственный университет (УдГУ)

Лал Хусейн - Университет AJ & K Музаффарабад

Аббаси Аниес Амар - Технологический институт Карлсруэ; Женский Университет AJ & K


Adnotare(Adnotări)

Обнаружение спама - это идентификация нежелательной части информации из текстового корпуса. Она включает в себя классификацию нежелательного фрагмента текста, называемого спамом. Это важное направление исследований в области анализа текста. Наиболее распространенными видами спама являются спам в электронной почте и короткие текстовые сообщения (СМС). Они рассматриваются организациями как серьезное неудобство для клиентов, а также вредны для компьютерных систем. Традиционно целью спама была реклама продуктов и услуг потенциальному клиенту. Однако со временем люди стали использовать спам в качестве механизма взлома или атаки на системы с помощью вирусов. Ученые и исследователи предложили различные методологии для обнаружения спама и его фильтрации в электронных письмах. Но выявление спама в коротких текстовых сообщениях не привлекло большого внимания. В данной работе основное внимание уделяется разработке программы обнаружения спама в коротких текстовых сообщениях (СМС). Для этой цели используются две известные модели: Word embedding и Термин Частота - Обратная частота документа (TF-IDF). Эти Модели анализируют текст путем преобразования дискретного текстового сообщения в непрерывную числовую векторную форму. Вектор представляет каждое слово в тексте, а числовое значение размеров слова основано на контексте слова. Результаты исследования подробно изложены в разделах эксперимент и обсуждение.


Textul complet al articolului
Аббаси.pdf