APLICAÇÃO DE MACHINE LEARNING NA IDENTIFICAÇÃO DE E-MAILS COMO SPAM

Colloquium Exactarum

Endereço:
Rod. Raposo Tavares, Km 572
Presidente Prudente / SP
19067175
Site: http://journal.unoeste.br/index.php/ce
Telefone: (18) 3229-2079
ISSN: 21788332
Editor Chefe: Robson Augusto Siscoutto
Início Publicação: 30/11/2009
Periodicidade: Semestral
Área de Estudo: Ciências Exatas, Área de Estudo: Engenharias

APLICAÇÃO DE MACHINE LEARNING NA IDENTIFICAÇÃO DE E-MAILS COMO SPAM

Ano: 2020 | Volume: 12 | Número: 3
Autores: Michelle Tais Garcia Furuya, Danielle Elis Garcia Furuya
Autor Correspondente: Michelle Tais Garcia Furuya | [email protected]

Palavras-chave: classificação; algoritmos; acurácia

Resumos Cadastrados

Resumo Português:

O serviço de e-mail é uma das principais ferramentas utilizadasnos dias de hoje e é um exemplo de que a tecnologia facilita a troca de informações. Por outro lado,umdos maiores empecilhos enfrentados pelos serviços de e-mail corresponde ao spam, nome dado à mensagem não solicitada recebida por um usuário.A aplicação de aprendizado de máquina (machine learning) vem ganhando destaque nos últimos anos como alternativa para identificação eficiente de spam. Nessa área,diferentes algoritmos podem ser avaliados para identificar qual apresenta melhor desempenho.O objetivo deste estudoconsiste em identificar a capacidade dos algoritmos de aprendizado de máquina em classificar corretamente os e-mails e identificar também qual algoritmo obteve maior acurácia. A base de dados utilizada foi retirada da plataforma Kaggle e os dados foram processados pelo software Orange com quatro algoritmos: Random Forest (RF), K-Nearest Neighbors (KNN), Support Vector Machine (SVM) e Naive Bayes (NB). A divisão dos dados em treino e teste considerou 80% dos dados para treinamento e 20% para teste. Os resultados evidenciam que o Random Forest foi o algoritmo commelhor desempenho com acurácia de 99%.



Resumo Inglês:

The e-mail service is one of the main tools used today and is an example that technology facilitates the exchange of information. On the other hand, one of the biggest obstacles faced by e-mail services is spam, the name given to the unsolicited message received by a user. The machine learning application has been gaining prominence in recent years as an alternative for efficient identification of spam. In this area, different algorithms can be evaluated to identify which one has the best performance. The aim of the study is to identify the ability of machine learning algorithms to correctly classify e-mails and also to identify which algorithm obtained the greatest accuracy. The database used was taken from the Kaggle platform and the data were processed bythe Orange software with four algorithms: Random Forest (RF), K-Nearest Neighbors (KNN), Support Vector Machine (SVM) and Naive Bayes (NB). The division of data in training and testing considers 80% of the data for training and 20% for testing. The results show that Random Forest was the best performing algorithm with 99% accuracy.