| Nome: | Descrição: | Tamanho: | Formato: | |
|---|---|---|---|---|
| 1.36 MB | Adobe PDF |
Autores
Orientador(es)
Resumo(s)
The thesis explores the evolution of education in Portugal, from high illiteracy rates to alignment with European averages in access to higher education. Despite progress, persistent school dropout remains a challenge. Using machine learning models emphasising explainability, the aim is to predict academic performance and identify dropout risks, highlighting the importance of transparency to build confidence in making practical decisions, such as preventative support strategies. The study uses public data from a Portuguese university, exploring demographic, socioeconomic, macroeconomic and academic factors. Two models were developed, Model A (after one academic year) and Model B (at enrolment), using the CatBoost algorithm. The results indicated substantially better performance for Model A, but both face challenges in the confusion matrix, with more false positives than false negatives. Predicting a false positive is more costly than predicting a false negative, according to the aim of the analysis. To solve this problem, an individualised analysis adapted to each model is suggested. The interpretability technique results highlight that after one year, first year grades have a significant impact on student performance, while at the time of enrolment, age, holding a scholarship and gender also emerged as influential factors. The significance of this analysis aims to formulate proactive strategies and personalised support systems to mitigate dropout risks and increase success in Portuguese higher education.
A tese aborda a evolução educativa em Portugal, desde elevadas taxas de analfabetismo até à convergência com as médias europeias no acesso ao ensino superior. Apesar dos progressos, o persistente abandono escolar ainda é um desafio. Utilizando modelos de aprendizagem automática com foco em explicabilidade, o objetivo é prever o desempenho académico e identificar riscos de abandono escolar, destacando a importância da transparência para inspirar confiança na tomada de decisões práticas, como estratégias de apoio preventivas. O estudo utiliza dados públicos de uma instituição universitária portuguesa, explorando fatores demográficos, socioeconómicos, macroeconómicos e académicos. Dois modelos, Modelo A (após um ano curricular) e Modelo B (momento da matrícula), foram desenvolvidos recorrendo ao algoritmo CatBoost. Os resultados indicam um desempenho substancialmente melhor para o Modelo A, mas ambos mostram desafios na matriz de confusão, com mais falsos positivos do que falsos negativos. Prever um falso positivo apresenta um maior custo que prever um falso negativo, de acordo com o objetivo da análise. Para mitigar isso, sugere-se uma análise individual ajustada a cada modelo. Os resultados da técnica de interpretabilidade destacam que após um ano as notas do primeiro ano impactam significativamente o desempenho dos alunos, enquanto, no momento da matrícula, a idade, a posse de uma bolsa e o género também surgiram como fatores influentes. A importância desta análise visa desenvolver estratégias proativas e sistemas de apoio personalizados para reduzir riscos de abandono e melhorar o sucesso no ensino superior português.
A tese aborda a evolução educativa em Portugal, desde elevadas taxas de analfabetismo até à convergência com as médias europeias no acesso ao ensino superior. Apesar dos progressos, o persistente abandono escolar ainda é um desafio. Utilizando modelos de aprendizagem automática com foco em explicabilidade, o objetivo é prever o desempenho académico e identificar riscos de abandono escolar, destacando a importância da transparência para inspirar confiança na tomada de decisões práticas, como estratégias de apoio preventivas. O estudo utiliza dados públicos de uma instituição universitária portuguesa, explorando fatores demográficos, socioeconómicos, macroeconómicos e académicos. Dois modelos, Modelo A (após um ano curricular) e Modelo B (momento da matrícula), foram desenvolvidos recorrendo ao algoritmo CatBoost. Os resultados indicam um desempenho substancialmente melhor para o Modelo A, mas ambos mostram desafios na matriz de confusão, com mais falsos positivos do que falsos negativos. Prever um falso positivo apresenta um maior custo que prever um falso negativo, de acordo com o objetivo da análise. Para mitigar isso, sugere-se uma análise individual ajustada a cada modelo. Os resultados da técnica de interpretabilidade destacam que após um ano as notas do primeiro ano impactam significativamente o desempenho dos alunos, enquanto, no momento da matrícula, a idade, a posse de uma bolsa e o género também surgiram como fatores influentes. A importância desta análise visa desenvolver estratégias proativas e sistemas de apoio personalizados para reduzir riscos de abandono e melhorar o sucesso no ensino superior português.
Descrição
Palavras-chave
Machine learning Explainability Education CatBoost Academic support Aprendizagem automática Explicabilidade Educação Apoio académico
