Name: | Description: | Size: | Format: | |
---|---|---|---|---|
589.46 KB | Adobe PDF |
Authors
Advisor(s)
Abstract(s)
The thesis aimed to examine the efficiency of synthetic data in increasing the predictive abilities of churn prediction models within imbalanced datasets, particularly in the telecommunication industry. Given that imbalanced datasets were a significant obstacle in the telecommunication sector, the study assessed the impact of including synthetic data in addressing the imbalance. Various synthetic data generation methods, including SMOTENC, ADASYN, TVAE, and CTGAN, were applied to a real-world dataset to achieve this. The goal was to determine to what extent synthetic data could help overcome data imbalance and enhance the predictive capabilities of classification models. Although a significant improvement in the lift score was not achieved, valuable insights into the challenges that come with utilizing synthetically created data were gained. The research highlighted the importance of a consistent and transparent data-cleaning strategy and the need for customized approaches to synthetic data models. The limitations encountered during the study were also discussed, including the use of a limited number of synthetic data models and the dependency on the quality of synthetic data derived from the original data quality. Finally, the thesis offered valuable insights into future research and the practical application of common synthetic data methods on imbalanced real-world datasets in the telco industry.
A tese teve como objetivo examinar a eficiência dos dados sintéticos no aumento das capacidades de previsão dos modelos de previsão de churn em conjuntos de dados desequilibrados, particularmente no sector das telecomunicações. Dado que os conjuntos de dados desequilibrados constituem um obstáculo significativo no sector das telecomunicações, o estudo avaliou o impacto da inclusão de dados sintéticos na resolução do desequilíbrio. Para o efeito, foram aplicados vários métodos de geração de dados sintéticos, incluindo SMOTENC, ADASYN, TVAE e CTGAN, a um conjunto de dados do mundo real. O objetivo era determinar até que ponto os dados sintéticos podiam ajudar a ultrapassar o desequilíbrio dos dados e melhorar as capacidades de previsão dos modelos de classificação. Embora não tenha sido alcançada uma melhoria significativa na pontuação de elevação, foram obtidas informações valiosas sobre os desafios inerentes à utilização de dados criados sinteticamente. A pesquisa destacou a importância de uma estratégia de limpeza de dados consistente e transparente e a necessidade de abordagens personalizadas para modelos de dados sintéticos. As limitações encontradas durante o estudo também foram discutidas, incluindo a utilização de um número limitado de modelos de dados sintéticos e a dependência da qualidade dos dados sintéticos derivados da qualidade dos dados originais. Por fim, a tese ofereceu informações valiosas sobre pesquisas futuras e a aplicação prática de métodos comuns de dados sintéticos em conjuntos de dados reais desequilibrados no setor de telecomunicações.
A tese teve como objetivo examinar a eficiência dos dados sintéticos no aumento das capacidades de previsão dos modelos de previsão de churn em conjuntos de dados desequilibrados, particularmente no sector das telecomunicações. Dado que os conjuntos de dados desequilibrados constituem um obstáculo significativo no sector das telecomunicações, o estudo avaliou o impacto da inclusão de dados sintéticos na resolução do desequilíbrio. Para o efeito, foram aplicados vários métodos de geração de dados sintéticos, incluindo SMOTENC, ADASYN, TVAE e CTGAN, a um conjunto de dados do mundo real. O objetivo era determinar até que ponto os dados sintéticos podiam ajudar a ultrapassar o desequilíbrio dos dados e melhorar as capacidades de previsão dos modelos de classificação. Embora não tenha sido alcançada uma melhoria significativa na pontuação de elevação, foram obtidas informações valiosas sobre os desafios inerentes à utilização de dados criados sinteticamente. A pesquisa destacou a importância de uma estratégia de limpeza de dados consistente e transparente e a necessidade de abordagens personalizadas para modelos de dados sintéticos. As limitações encontradas durante o estudo também foram discutidas, incluindo a utilização de um número limitado de modelos de dados sintéticos e a dependência da qualidade dos dados sintéticos derivados da qualidade dos dados originais. Por fim, a tese ofereceu informações valiosas sobre pesquisas futuras e a aplicação prática de métodos comuns de dados sintéticos em conjuntos de dados reais desequilibrados no setor de telecomunicações.
Description
Keywords
Synthetic data Churn prediction Imbalanced datasets Telecommunication SMOTENC ADASYN TVAE CTGAN Lift score Data quality Dados sintéticos Previsão de churn Conjuntos de dados desbalanceados Indústria de telecomunicações Qualidade dos dados