Ensemble reinforcement learning to forecast time series data : a performance analysis

Madureira, Zara Andreia Albino

http://hdl.handle.net/10400.14/42244

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
203329546.pdf		965.39 KB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Madureira, Zara Andreia Albino

Orientador(es)

Fernandes, Pedro Afonso

Resumo(s)

This study aims to investigate the feasibility of applying Temporal Difference models to forecasting time-series data. Initially, this research offers an overview of the key concepts of Approximate Dynamic Programming, covering the basic princi ples of Dynamic Programming and the structure and architecture of Reinforcement Learning. Subsequently, a concise outline of related literature is presented, high lighting valuable and interesting contributions regarding related topics. The meth ods used in this analysis encompass Temporal Difference algorithms, in particular TD(0), TD(λ), and GTD2. To assess the suitability of these models in predict ing time-series data, their performance is compared to that of benchmark models, including a Hodrick-Prescott filter and Auto-Regressive models, when applied to economic indicators such as Gross Domestic Product, Private Consumption, Invest ment, and Exports in Portugal. The model’s performance was assessed through the analysis of three main indicators, the Mean Absolute Error, the Mean Square Error, and the Root Mean Square Error. By comparing the performance of benchmark and proposed models, the study suggests that temporal difference models indulge in higher quality predictions, proving themselves to be reliable tools to forecast time-series data.

O presente estudo tem como objetivo explorar a aplicabilidade de modelos de diferen¸cas temporais na previs˜ao de dados de s´eries temporais. Em primeiro lu gar, ´e fornecida uma vis˜ao geral dos principais conceitos da Programa¸c˜ao Dinˆamica Aproximada, a come¸car pelos conceitos fundamentais da programa¸c˜ao dinˆamica e indo at´e `a arquitetura da aprendizagem de refor¸co. Segue-se uma breve descri¸c˜ao de trabalhos complementares que abordam temas relacionados, onde s˜ao revela dos resultados valiosos e interessantes de outros autores. Os m´etodos utilizados nesta an´alise s˜ao algoritmos de diferen¸cas temporais, em particular TD(0), TD(λ) e GTD2. A fim de avaliar a viabilidade destes modelos aplicados a s´eries tempo rais, o seu desempenho quando aplicados a m´etricas econ´omicas - produto interno bruto, consumo privado, investimento e exporta¸c˜oes em Portugal - s˜ao diretamente comparados com a performance de um filtro Hodrick-Prescott e um modelo Auto Regressivo, que foram desenvolvidos para fins de benchmarking. A performance dos modelos foi avaliada atrav´es da an´alise de trˆes m´etricas, o erro m´edio abso luto, o erro quadr´atico m´edio e a ra´ız do erro quadr´atico m´edio. Ao comparar o desempenho dos modelos de referˆencia e dos modelos propostos, observa-se que os modelos de diferen¸cas temporais fornecem previs˜oes de maior qualidade, provando ser ferramentas eficazes na previs˜ao de s´eries temporais.

Palavras-chave

Approximate dynamic programming Reinforcement learning Dynamic programming Markov decision processes Economics forecasting Temporal differences methods Programação dinâmica aproximada Aprendizagem de reforço Programação dinâmica Processos de decisão de Markov Previsão económica Métodos de diferenças temporais

URI

http://hdl.handle.net/10400.14/42244

Coleções

R - Dissertações de Mestrado / Master Dissertations
CLSBE - Dissertações de Mestrado / Master Dissertations

Ver registo completo