From potential to practice : evaluating AI grading models against human standards on Artificial Owl’s platform

Vogt, Benjamin Holm

http://hdl.handle.net/10400.14/56916

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
204027314.pdf		1.46 MB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Vogt, Benjamin Holm

Orientador(es)

Xavier, Rute

Resumo(s)

AI is rapidly entering education, but its role in grading remains contested. While automation promises efficiency and consistency, questions persist about whether AI can replicate the accuracy and fairness of human evaluators. This thesis evaluates three grading models: Additive, Deductive and Tournament, tested on Artificial Owl9s platform using responses from the 2024 Portuguese national exam (Prova 85). The analysis focused on two open-ended questions with different structures: Q7, a short cutoff-based task, and Q19, a longer essay with multidimensional criteria. The models were compared with human scores using correlation, mean absolute error and agreement metrics. Results show that absolute models (Additive and Deductive) aligned more closely with human graders than the relative Tournament model. Accuracy was higher for Q19, showing that longer responses give richer evaluation signals, while strict cutoffs expose AI’s limitations. Across models, ranking responses was more reliable than reproducing exact scores, underscoring the importance of rubric anchoring and human-like evaluation logic. The study positions AI as a support tool, not a replacement, especially for ranking and formative feedback, and recommends hybrid human-AI systems for platforms such as Artificial Owl. By combining empirical evidence with practical recommendations, the thesis contributes to both theory and practice: it shows that rubric flexibility shapes AI alignment as much as task complexity, and it outlines pathways for designing grading systems that are accurate, transparent and trustworthy.

A inteligência artificial está a ganhar espaço na educação, mas o seu papel na avaliação continua controverso. Embora a automação prometa eficiência e consistência, subsistem dúvidas sobre se a IA consegue replicar os avaliadores humanos com precisão e justiça. Esta dissertação avalia o desempenho de três modelos de correção da plataforma Artificial Owl: Aditivo, Dedutivo e Torneio, aplicados a respostas do exame nacional de Português de 2024 (Prova 85). A análise incide sobre duas questões de resposta aberta com estruturas distintas: a Q7, uma tarefa curta e categórica com critérios rígidos, e a Q19, um ensaio com critérios multidimensionais. Os modelos foram comparados com classificações humanas através de correlação, erro absoluto médio e métricas de concordância. Os resultados revelam que os modelos absolutos, Aditivo e Dedutivo, se aproximaram mais das classificações humanas do que o modelo relativo de Torneio. A precisão foi superior na Q19 do que na Q7, sugerindo que respostas mais longas oferecem sinais mais ricos, enquanto tarefas de corte estrito expõem limitações da IA. De forma geral, a ordenação das respostas mostrou-se mais fiável do que a reprodução de notas exatas, sublinhando a importância das grelhas de correção e de uma lógica avaliativa semelhante à humana. O estudo posiciona a IA como ferramenta de apoio promissora, especialmente para ordenação e feedback formativo, e conclui com recomendações para sistemas híbridos humano-IA e para o desenvolvimento de uma plataforma colaborativa de correção pela Artificial Owl.

Palavras-chave

Artificial intelligence Automated essay scoring (AES) Correção automática de provas (CAP) Evaluation models Exame nacional de português Grading accuracy Hybrid systems Inteligência artificial Modelos de avaliação Portuguese national exam Precisão da avaliação Sistemas híbridos

URI

http://hdl.handle.net/10400.14/56916

Coleções

R - Dissertações de Mestrado / Master Dissertations
CLSBE - Dissertações de Mestrado / Master Dissertations

Licença CC

Sem licença CC

Ver registo completo