19.06.2020
Федеральное государственное бюджетное образовательное учреждение высшего образования «Пензенский государственный технологический университет»
XXI век: итоги прошлого и проблемы настоящего плюс, № 2(50) 19.06.2020
10.46548/21vek-2020-0950-0026
Аббаси Мохсин Маншад - Удмуртский государственный университет (УдГУ)
Бельтюков Анатолий Петрович - Удмуртский государственный университет (УдГУ)
Лал Хусейн - Университет AJ & K Музаффарабад
Аббаси Аниес Амар - Технологический институт Карлсруэ; Женский Университет AJ & K
Обнаружение спама - это идентификация нежелательной части информации из текстового корпуса. Она включает в себя классификацию нежелательного фрагмента текста, называемого спамом. Это важное направление исследований в области анализа текста. Наиболее распространенными видами спама являются спам в электронной почте и короткие текстовые сообщения (СМС). Они рассматриваются организациями как серьезное неудобство для клиентов, а также вредны для компьютерных систем. Традиционно целью спама была реклама продуктов и услуг потенциальному клиенту. Однако со временем люди стали использовать спам в качестве механизма взлома или атаки на системы с помощью вирусов. Ученые и исследователи предложили различные методологии для обнаружения спама и его фильтрации в электронных письмах. Но выявление спама в коротких текстовых сообщениях не привлекло большого внимания. В данной работе основное внимание уделяется разработке программы обнаружения спама в коротких текстовых сообщениях (СМС). Для этой цели используются две известные модели: Word embedding и Термин Частота - Обратная частота документа (TF-IDF). Эти Модели анализируют текст путем преобразования дискретного текстового сообщения в непрерывную числовую векторную форму. Вектор представляет каждое слово в тексте, а числовое значение размеров слова основано на контексте слова. Результаты исследования подробно изложены в разделах эксперимент и обсуждение.
| Аббаси.pdf |
|---|