| Nome: | Descrição: | Tamanho: | Formato: | |
|---|---|---|---|---|
| 2.6 MB | Adobe PDF |
Autores
Orientador(es)
Resumo(s)
Recruitment CRM platforms dispatch millions of campaign emails annually, yet most lack data driven methods to predict which candidates will engage. This thesis investigates whether historical engagement data and campaign metadata can predict email click-through in recruitment campaigns and be operationalized for targeting and personalization. Using 413,594 email-contact events from 58 European employers on the CleverConnect platform, three models: Random Forest, Histogram-based Gradient Boosting, and Logistic Regression, are trained on 75 features and evaluated under a temporal split with zero talent overlap. Random Forest achieves the strongest ranking performance (PR-AUC 0.456, Precision@500 of 0.998), exceeding the best heuristic by 129%. The near-perfect top-500 precision reflects that the highest-ranked candidates are predominantly repeat engagers whose future behavior is predictable SHAP analysis reveals that engagement history, particularly click rate relative to the tenant average is the dominant predictor, while campaign metadata and timing features contribute less. A counterfactual analysis shows model-based targeting achieves Lifts of 4.3× to 6.8× over random selection, and suppressing the bottom 10% removes 8,197 low engagement dispatches while sacrificing only 1.8% of clicks, reducing wasted outreach that damages sender reputation. Predictions are operationalized through intent segmentation separating candidates into distinct tiers (55.1% vs. 6.1% click rate), an LLM-based module generating brand-compliant email copy per tier, and an interactive HTML prototype for non technical recruiters. To the best of the author’s knowledge, this is the first application of machine learning for engagement prediction on recruitment CRM email data, demonstrating a complete pipeline from prediction to personalized outreach.
As plataformas de CRM de recrutamento enviam milhões de emails de campanha anualmente, mas a maioria carece de métodos para prever quais candidatos irão interagir. Esta dissertação investiga se dados históricos de interação e metadados de campanha permitem prever cliques em emails de recrutamento, e se essas previsões podem ser operacionalizadas para segmentação e personalização. Utilizando 413.594 envios de 58 empregadores europeus na plataforma CleverConnect, três modelos: Random Forest, Histogram-based Gradient Boosting e Regressão Logística, são treinados com 75 variáveis e avaliados sob uma divisão temporal sem sobreposição de candidatos. O Random Forest obtém o melhor desempenho (PR-AUC 0,456, Precision@500 de 0,998), superando a melhor heurística em 129%. A análise SHAP revela que o histórico de interação, em particular a taxa de cliques relativa à média do empregador é o preditor dominante, enquanto metadados de campanha acrescentam sinal marginal e variáveis temporais contribuem pouco. Uma análise contrafactual demonstra que a segmentação baseada no modelo atinge Lifts de 4,3× a 6,8× face à seleção aleatória, e que suprimir os 10% inferiores remove 8.197 envios sacrificando apenas 1,8% dos cliques. As previsões são operacionalizadas através de segmentação por intenção com grupos distintos (taxa de clique de 55,1% vs. 6,1%), um módulo LLM que gera texto adaptado a cada grupo, e um protótipo HTML interativo para recrutadores. Tanto quanto é do conhecimento da autora, esta dissertação representa a primeira aplicação de machine learning para previsão de engagement em email de CRM de recrutamento e demonstra um pipeline completo da previsão ao contacto personalizado.
As plataformas de CRM de recrutamento enviam milhões de emails de campanha anualmente, mas a maioria carece de métodos para prever quais candidatos irão interagir. Esta dissertação investiga se dados históricos de interação e metadados de campanha permitem prever cliques em emails de recrutamento, e se essas previsões podem ser operacionalizadas para segmentação e personalização. Utilizando 413.594 envios de 58 empregadores europeus na plataforma CleverConnect, três modelos: Random Forest, Histogram-based Gradient Boosting e Regressão Logística, são treinados com 75 variáveis e avaliados sob uma divisão temporal sem sobreposição de candidatos. O Random Forest obtém o melhor desempenho (PR-AUC 0,456, Precision@500 de 0,998), superando a melhor heurística em 129%. A análise SHAP revela que o histórico de interação, em particular a taxa de cliques relativa à média do empregador é o preditor dominante, enquanto metadados de campanha acrescentam sinal marginal e variáveis temporais contribuem pouco. Uma análise contrafactual demonstra que a segmentação baseada no modelo atinge Lifts de 4,3× a 6,8× face à seleção aleatória, e que suprimir os 10% inferiores remove 8.197 envios sacrificando apenas 1,8% dos cliques. As previsões são operacionalizadas através de segmentação por intenção com grupos distintos (taxa de clique de 55,1% vs. 6,1%), um módulo LLM que gera texto adaptado a cada grupo, e um protótipo HTML interativo para recrutadores. Tanto quanto é do conhecimento da autora, esta dissertação representa a primeira aplicação de machine learning para previsão de engagement em email de CRM de recrutamento e demonstra um pipeline completo da previsão ao contacto personalizado.
Descrição
Palavras-chave
Recruitment CRM Email click prediction Machine learning Random forest SHAP LLM personalization Intent segmentation CRM de recrutamento Previsão de cliques em email personalização com LLM segmentação por intenção
Contexto Educativo
Citação
Editora
Licença CC
Sem licença CC
