| Name: | Description: | Size: | Format: | |
|---|---|---|---|---|
| 1.04 MB | Adobe PDF |
Authors
Advisor(s)
Abstract(s)
Corporate failure prediction is a central topic in financial literature due to the substantial costs associated with firm failures. At the same time, advances in machine learning have introduced powerful new tools for addressing this challenge. This thesis examines the predictive perfor mance of traditional and machine learning models in forecasting corporate failures, with an evaluation across different prediction horizons. Two iterations of datasets were employed: one based on the established Campbell (Campbell et al., 2008) variables and another extended dataset incorporating accounting, market, and macroe conomic information. Firms were observed over consecutive months until disappearance, fol lowing a hazard model framework (Shumway, 2001). Logistic regression served as the baseline and was compared against random forest and extreme gradient boosting (XGBoost). Model performance was assessed using AUC and other evaluation metrics and feature importance was analyzed to shed light on the main drivers of corporate failure risk. The results indicate that Logistic Regression with Campbell variables performs well over short horizons (one month). However, expanding the feature set and applying machine learning models, particularly ensemble models, substantially improves predictive accuracy and ensures greater stability across longer horizons. These findings underscore the importance of combining richer datasets with advanced algorithms, offering both theoretical contributions to the literature and practical implications for early warning systems, risk management, and corporate monitor ing.
A previsão de falências corporativas é um tema central na literatura financeira devido aos custos substanciais associados às falências empresariais. Ao mesmo tempo, os avanços em machine learning introduziram novas poderosas ferramentas para enfrentar este desafio. Esta dissertação examina o desempenho preditivo de modelos tradicionais e de machine learning na previsão de falências corporativas, avaliados em diferentes horizontes de previsão. Foram utilizadas duas iterações de bases de dados: uma baseada nas variáveis estabelecidas por Campbell (Campbell et al., 2008) e outra alargada, que incorpora informações contabilísticas, de mercado e macroeconómicas. As empresas foram observadas ao longo de meses consecutivos até a sua saída do mercado, seguindo uma estrutura de modelo de risco (hazard model) (Shumway, 2001). A regressão logística foi utilizada como linha de base e comparada com ran dom forest e extreme gradient boosting (XGBoost). O desempenho dos modelos foi avaliado através do AUC e de outras métricas, e a importância das variáveis foi analisada para identificar os principais determinantes do risco de falência corporativa. Os resultados indicam que a regressão logística com as variáveis de Campbell apresenta bom desempenho em horizontes curtos (um mês). No entanto, a ampliação do conjunto de variáveis e a aplicação de modelos de machine learning, em particular os modelos de ensemble, melhoram substancialmente o poder preditivo e asseguram maior estabilidade em horizontes mais longos. Estes resultados reforçam a relevância de combinar dados mais ricos com algoritmos avançados, oferecendo contribuições teóricas e implicações práticas para sistemas de alerta precoce, gestão de risco e monitoramento corporativo.
A previsão de falências corporativas é um tema central na literatura financeira devido aos custos substanciais associados às falências empresariais. Ao mesmo tempo, os avanços em machine learning introduziram novas poderosas ferramentas para enfrentar este desafio. Esta dissertação examina o desempenho preditivo de modelos tradicionais e de machine learning na previsão de falências corporativas, avaliados em diferentes horizontes de previsão. Foram utilizadas duas iterações de bases de dados: uma baseada nas variáveis estabelecidas por Campbell (Campbell et al., 2008) e outra alargada, que incorpora informações contabilísticas, de mercado e macroeconómicas. As empresas foram observadas ao longo de meses consecutivos até a sua saída do mercado, seguindo uma estrutura de modelo de risco (hazard model) (Shumway, 2001). A regressão logística foi utilizada como linha de base e comparada com ran dom forest e extreme gradient boosting (XGBoost). O desempenho dos modelos foi avaliado através do AUC e de outras métricas, e a importância das variáveis foi analisada para identificar os principais determinantes do risco de falência corporativa. Os resultados indicam que a regressão logística com as variáveis de Campbell apresenta bom desempenho em horizontes curtos (um mês). No entanto, a ampliação do conjunto de variáveis e a aplicação de modelos de machine learning, em particular os modelos de ensemble, melhoram substancialmente o poder preditivo e asseguram maior estabilidade em horizontes mais longos. Estes resultados reforçam a relevância de combinar dados mais ricos com algoritmos avançados, oferecendo contribuições teóricas e implicações práticas para sistemas de alerta precoce, gestão de risco e monitoramento corporativo.
Description
Keywords
Corporate failures Falências corporativas Machine learning
Pedagogical Context
Citation
Publisher
CC License
Without CC licence
