Repository logo
 
No Thumbnail Available
Publication

Machine learning methods for predicting stock returns from financial and microeconomic variables

Use this identifier to reference this record.
Name:Description:Size:Format: 
202963063.pdf1.24 MBAdobe PDF Download

Advisor(s)

Abstract(s)

This report analyses the ability of machine learning algorithms to predict next quarter stock returns based on macroeconomic features and financial, company-specific variables, by benchmarking achieved results in terms of root mean squared error against the expected return baseline that outputs as a prediction of period t return, the average of returns until t-1. The deployed study compares the performance of Random Forest, Support Vector Regression, Lasso Regression and Multi-layer perceptron regressor in modelling the predictive issue considered and analysis whether specific industries are better suited for prediction purposes. The achieved results show that there are no major differences in performance across models in terms of root mean squared error, but that Lasso regression fails to properly model the problem as it deploys the same prediction regardless of the values in the set of predictive features. Furthermore, on an industry level, the analysis shows that some industries are more prone to prediction, with the Health Care and Semiconductors sector displaying the worst results. What is more, considering the selected features, the models showed better performance levels either when the entire set of features was used, suggesting that reducing the number of features was not helpful for the model to deploy its predictions, or when principal component analysis was used. The results from the RF show that macroeconomic variables are, overall, more important than company-specific ones to predict next quarter’s returns, which may be at the basis of the similar performance across some of the industries and of the models.
Este trabalho analisa a possibilidade de algoritmos de Machine Learning serem usados na previsão do retorno de ações tendo por base fatores macroeconómicos e financeiros, comparando os erros dos modelos com o erro obtido usando um baseline que prevê o retorno do período t, com base na média de retornos até ao período t-1. Este estudo compara o desempenho de quatro modelos: Random Forest, Support Vector Regression, Lasso Regression and Multi-layer perceptron regressor. Adicionalmente, procura perceber se existem indústrias que sejam mais adequadas à implementação dos modelos preditivos. Os resultados obtidos mostram que não há grande diferença de desempenho entre diferentes tipos de modelos, no que respeita ao erro obtido. No entanto, o algoritmo Lasso Regression não se mostrou adequado à modelação do problema preditivo considerado, por implementar a mesma previsão independentemente dos valores das variáveis preditivas usadas. Ademais, ao nível sectorial, a análise mostra que algumas indústrias se manifestam mais adequadas à previsão do retorno do trimestre seguinte, com as indústrias de cuidados de saúde e semicondutores a evidenciarem os piores resultados. No que concerne às variáveis usadas, os modelos evidenciaram melhores resultados quando todas as variáveis inicialmente selecionadas foram utilizadas ou aquando do uso de análise de componentes principais, sugerindo que uma redução do número de fatores não ajuda à obtenção de melhores resultados. Finalmente, os resultados da Random Forest obtêm a maior relevância, em geral, das variáveis macroeconómicas, o que poderá estar na base da semelhança dos resultados obtidos quando comparados os diversos setores de atividade analisados.

Description

Keywords

Stock return prediction Machine learning Fundamental analysis Macroeconomic features Previsão de retorno de ações Fatores financeiros Variáveis macroeconómicas

Pedagogical Context

Citation

Research Projects

Organizational Units

Journal Issue