Mineração de dados educacionais com algoritmos de regressão: um estudo sobre a predição do desempenho

Revista Educar Mais

Endereço:
Avenida Engenheiro Ildefonso Simões Lopes - 2791 - Arco-Iris
Pelotas / RS
96060290
Site: http://periodicos.ifsul.edu.br/index.php/educarmais/index
Telefone: (53) 3309-5582
ISSN: 2237–9185
Editor Chefe: Nelson Luiz Reyes Marques
Início Publicação: 02/07/2012
Periodicidade: Trimestral
Área de Estudo: Multidisciplinar

Mineração de dados educacionais com algoritmos de regressão: um estudo sobre a predição do desempenho

Ano: 2022 | Volume: 6 | Número: Não se aplica
Autores: Vanessa Faria de Souza, Sílvio Cézar Cazella
Autor Correspondente: Vanessa Faria de Souza | [email protected]

Palavras-chave: Mineração de Dados Educacionais, Aprendizagem de Máquina, Algoritmos de Regressão, Predição do Desempenho

Resumos Cadastrados

Resumo Português:

Com a o aumento da disponibilidade de dados, sobretudo no contexto educacional, a Mineração de Dados Educacionais (MDE) tem se tornado cada vez mais importante para a tomada de decisão neste contexto. Um dos principais objetivos da MDE é a predição do desempenho, pois quando se sabe de forma antecipada sobre a performance dos alunos, é possível intervir evitando reprovações, e até mesmo a evasão. Nesse sentido, esse estudo tem como objetivo realizar a previsão do desempenho de alunos, em um conjunto de dados públicos, utilizando algoritmos de Regressão, ademais indicar quais os principais atributos preditores para o desempenho dos alunos. Para isso foi implementado um processo de MDE baseado em 4 etapas descritas por Aggarwal (2015). Como resultado foi identificado que para os dois conjuntos de dados analisados a Árvores de Decisão foi o mais preciso, com uma acurácia de 90% para a disciplina de Matemática, e o Random Forest teve o melhor desempenho para os dados referentes a disciplina de Português, 80% de precisão. Além disso, constatou-se que atributos relacionados as atividades escolares são mais preditores para o desempenho dos alunos, todavia alguns atributos decorrentes de características demográficas e socioeconômicas, também influenciam no desempenho.



Resumo Inglês:

With the increase in data availability, especially in the educational context, Educational Data Mining (EDM) is becoming increasingly important for decision making in this context. One of the main objectives of the MDE is the prediction of performance, because when it is known in advance about the performance of students, it is possible to intervene preventing failures, and even evasion. In this sense, this study aims to predict the performance of students, in a set of public data, divided into two smaller databases, one referring to the Portuguese subject and the other with data related to the Mathematics subject, using algorithms of Regression. Furthermore, it is intended to indicate which are the main predictors of student performance. For this, an MDE process was implemented based on 4 steps: 1) Data collection; 2) Resource extraction and data cleaning(Pre-Processing and Transformation); 3) Analytical processing and algorithms; and 4) Analysis of Results. As a result, it was identified that in the dataset of the Mathematics discipline, the Decision Trees algorithm was the most accurate, with an accuracy of 90%, and Random Forest had the best performance for the data referring to the Portuguese discipline, 80% of precision. In addition, it was found that attributes related to school activities are more predictors of student performance, however some attributes resulting from demographic and socioeconomic characteristics also influence performance.



Resumo Espanhol:

Con el aumento de la disponibilidad de datos, especialmente en el contexto educativo, la Minería de Datos Educativos (EDM) se está volviendo cada vez más importante para la toma de decisiones en este contexto. Uno de los principales objetivos del MDE es lapredicción del desempeño, ya que cuando se conoce de antemano el desempeño de los estudiantes, es posible intervenir previniendo los fracasos, e incluso la evasión. En este sentido, este estudio tiene como objetivo predecir el desempeño de los estudiantes, en un conjunto de datos públicos, divididos en dos bases de datos más pequeñas, una referida a la asignatura de portugués y otra con datos relacionados con la asignatura de Matemáticas, utilizando algoritmos de regresión. Además, se pretende señalar cuáles son los principales predictores del rendimiento de los estudiantes. Para ello se implementó un proceso MDE basado en 4 pasos: 1) Recolección de datos; 2) Extracción de recursos y limpieza de datos (Preprocesamiento y Transformación); 3) Procesamiento analítico y algoritmos; y 4) Análisis de Resultados. Como resultado, se identificó que en el conjunto de datos de la disciplina Matemáticas, el algoritmo Decision Trees fue el más preciso, con una precisión del 90%, y Random Forest tuvo el mejor desempeño para los datos referentes a la disciplina portuguesa, 80%. de precisión Además, se encontró que los atributos relacionados con las actividades escolares son más predictores del rendimiento de los estudiantes, sin embargo, algunos atributos resultantes de lascaracterísticas demográficas y socioeconómicas también influyen en el rendimiento.