| Name: | Description: | Size: | Format: | |
|---|---|---|---|---|
| 20.27 MB | Adobe PDF | 
Authors
Advisor(s)
Abstract(s)
This thesis investigates whether sentiment scores derived from social media can improve the prediction of next-day market prices for financial assets, with a focus on Tesla ($TSLA) and Bitcoin ($BTC). Using freely available X (Twitter) datasets from Kaggle, three pre-trained Natural Language Processing (NLP) tools—VADER, TextBlob, and FinTwitBERT—were appplied to individually score the sentiment of each post. After extensive cleaning, filtering, and sampling, a total of 47,800 tweets were used for analysis—33,200 for $TSLA and 14,600 for $BTC. Sentiment scores were aggregated into daily averages and merged with financial data from Bloomberg. These features were then used as explanatory variables in three forecasting models: ARIMA/ARIMAX, XGBoost, and Long Short-Term Memory (LSTM) neural networks. The results show that for $TSLA, the introduction of sentiment scores—especially with FinTwitBERT—substantially improved forecasting performance. The strongest model, an LSTM with sentiment and financial variables, achieved a test R² of 0.76 compared to a baseline model with R² of 0.49. In contrast, all models performed poorly on $BTC, likely due to its higher volatility, optimistically biased sentiment, and large data gaps (about 50% of tweet days missing due to structural issues). These findings suggest that sentiment analysis can enhance short-term price forecasting for traditional stocks, while its value for highly volatile assets like Bitcoin remains unclear. Additionally, the results highlight the superior predictive performance of transformer-based sentiment models like FinTwitBERT over lexicon-based alternatives. This study lays the groundwork for future research in real-time or intraday prediction using more complex models and diverse social media sources.
A presente dissertação encerra uma investigação sobre a possibilidade de o sentimento expresso nas redes sociais poder melhorar a previsão dos preços de mercado no dia seguinte de ativos financeiros, em particular, dos títulos da Tesla ($TSLA) e Bitcoin ($BTC). Partindo de dados do Twitter, disponíveis gratuitamente na plataforma Kaggle, foram aplicadas três ferramentas de aprendizagem automática de Processamento de Linguagem Natural (NLP) – VADER, TextBlob e FinTwitBERT – para avaliar, individualmente, o sentimento expresso em cada publicação. Após um exaustivo processo de limpeza, filtragem e amostragem, foram analisados 47.800 tweets, 33.200 relativos à $TSLA e 14.600 à $BTC. Os scores de sentimento foram agregados em médias diá-rias e integrados com dados financeiros, também diários, provenientes da Bloomberg. Estas variáveis foram, por seu turno, integradas como fatores explicativos em três modelos de previsão: ARIMA/ARIMAX, XGBoost e redes neuronais LSTM (Long Short-Term Memory). Os resultados mostram que, no caso da $TSLA, a introdução da variável de sentimento – especialmente com FinTwitBERT – melhora substancialmente o desempe-nho da previsão. O modelo mais preciso, um LSTM com variáveis independentes de sentimento e financeiras, obteve um R² de teste de 0,76, comparando com o modelo de base, com um R² de apenas 0,49. No entanto, todos os modelos apresentaram fraco desempenho na previsão da cotação da $BTC, possivelmente devido à respetiva volatilidade, enviesamento otimista em termos de sentimento e lacunas nos dados (cerca de 50% dos dias com tweets não foram considerados devido a problemas estruturais). Estes resultados sugerem que a análise de sentimento de redes sociais pode melhorar a previsão das cotações de curto prazo de ações tradicionais, mas não tanto no caso de ativos muito voláteis como acontece com a Bitcoin. Adicionalmente, os resultados destacam o desempenho superior de modelos de sentimento baseados em transformers, como é o caso do FinTwitBERT, em comparação com modelos lexicográficos. Este estudo estabeleceu, ainda, uma base para investigação futura no tópico da previsão em tempo real ou diária das cotações de ativos financeiros, utilizando modelos complexos de aprendizagem automática e fontes de dados diversificadas, incluindo as redes sociais.
A presente dissertação encerra uma investigação sobre a possibilidade de o sentimento expresso nas redes sociais poder melhorar a previsão dos preços de mercado no dia seguinte de ativos financeiros, em particular, dos títulos da Tesla ($TSLA) e Bitcoin ($BTC). Partindo de dados do Twitter, disponíveis gratuitamente na plataforma Kaggle, foram aplicadas três ferramentas de aprendizagem automática de Processamento de Linguagem Natural (NLP) – VADER, TextBlob e FinTwitBERT – para avaliar, individualmente, o sentimento expresso em cada publicação. Após um exaustivo processo de limpeza, filtragem e amostragem, foram analisados 47.800 tweets, 33.200 relativos à $TSLA e 14.600 à $BTC. Os scores de sentimento foram agregados em médias diá-rias e integrados com dados financeiros, também diários, provenientes da Bloomberg. Estas variáveis foram, por seu turno, integradas como fatores explicativos em três modelos de previsão: ARIMA/ARIMAX, XGBoost e redes neuronais LSTM (Long Short-Term Memory). Os resultados mostram que, no caso da $TSLA, a introdução da variável de sentimento – especialmente com FinTwitBERT – melhora substancialmente o desempe-nho da previsão. O modelo mais preciso, um LSTM com variáveis independentes de sentimento e financeiras, obteve um R² de teste de 0,76, comparando com o modelo de base, com um R² de apenas 0,49. No entanto, todos os modelos apresentaram fraco desempenho na previsão da cotação da $BTC, possivelmente devido à respetiva volatilidade, enviesamento otimista em termos de sentimento e lacunas nos dados (cerca de 50% dos dias com tweets não foram considerados devido a problemas estruturais). Estes resultados sugerem que a análise de sentimento de redes sociais pode melhorar a previsão das cotações de curto prazo de ações tradicionais, mas não tanto no caso de ativos muito voláteis como acontece com a Bitcoin. Adicionalmente, os resultados destacam o desempenho superior de modelos de sentimento baseados em transformers, como é o caso do FinTwitBERT, em comparação com modelos lexicográficos. Este estudo estabeleceu, ainda, uma base para investigação futura no tópico da previsão em tempo real ou diária das cotações de ativos financeiros, utilizando modelos complexos de aprendizagem automática e fontes de dados diversificadas, incluindo as redes sociais.
Description
Keywords
 Análise de sentimento   Bitcoin   Financial forecasting   LSTM   NLP   Previsão financeira   Sentiment analysis   Tesla 
Pedagogical Context
Citation
Publisher
CC License
Without CC licence
