Publication
Forecasting flight prices with machine learning models : a comparative analysis between low and high-cost airlines
datacite.subject.fos | Ciências Sociais::Economia e Gestão | pt_PT |
dc.contributor.advisor | Afonso, Pedro | |
dc.contributor.author | Daly, Sophia Maria | |
dc.date.accessioned | 2023-11-24T09:32:59Z | |
dc.date.available | 2023-11-24T09:32:59Z | |
dc.date.issued | 2023-10-18 | |
dc.date.submitted | 2023-09 | |
dc.description.abstract | Forecasting fight prices is a challenging task due to the complex nature of the pricing algorithms that airlines use. Apart from the fact that these algorithms are not public, they have to take into account many different variables that affect ticket prices. Since the airlines’ demand forecasting may not always hold true as a result of varying demand, prices need to be adjusted accordingly. This approach is called dynamic pricing. It is a technique of price discrimination based on temporal differences mainly, leading to the widely spread assumption that the time of booking is a crucial determinant of the ticket price. This analysis shows that apart from days to departure, especially fight distance and airline type infuence the price significantly. That is, longer fights as well as fights operated by full-service carriers, as opposed to low-cost carriers, are usually more expensive. This thesis uses a dataset including the fight fares and other fight-related characteristics of one-way fights in the US between April and October 2022, retrieved from the search engine Expedia.com. The data is used to train and compare the performance of several supervised learning models aiming to forecast fight prices. Each model is deployed three times, first with the entire dataset, and then once with data only from low-cost-carrier and only from full-service-carriers, respectively. The most accurate models for all three datasets are the random forests followed by k-nearest-neighbor. The results of this thesis suggest that a large part of the fight price can be predicted using fight-related details such as days to departure and fight duration, yet, it also shows that there remains a certain inexplicable variability that could be due to external factors that are not included in the present analysis. | pt_PT |
dc.description.abstract | Prever os preços de voo é uma tarefa desafiante devido à natureza complexa dos algoritmos de fixação de preços que as companhias aéreas utilizam habitualmente. Para além da sua natureza privada, estes algoritmos levam em consideração muitas variáveis diferentes que afetam, por essa via, os preços das passagens aéreas. Uma vez que a previsão da procura pelas rotas das companhias aéreas nem sempre se mantém válida devido à sua variabilidade ao longo do tempo, os preços precisam de ser ajustados continuamente de modo a favorecer a rentabilidade dessas companhias. Esta prática designa-se por fixação de preços dinâmica, uma técnica de discriminação de preços baseada principalmente em diferenças temporais, levando à amplamente difundida perceção de que o momento da reserva é o principal determinante do preço das passagem aéreas. A presente análise revela que, para além do número de dias até à data de partida, o tipo de companhia aérea e, sobretudo, a distância de voo também influenciam significativamente o respetivo preço. Assim, voos mais longos e operados por companhias de serviço completo, em oposição às companhias de baixo custo, são geralmente mais caros. A presente tese utilizou uma base de dados incluindo os preços das passagens aéreas e outras características relacionadas com voos de ida nos EUA entre abril e outubro de 2022, obtidas através do motor de busca Expedia.com. Estes dados foram utilizados para treinar e comparar o desempenho de vários modelos de aprendizagem automática supervisionada com o objetivo de prever os preços de voo. Cada modelo foi implementado três vezes, primeiro com a base de dados completa, depois com os registos relativos às companhias de baixo custo e, finalmente, apenas com os dados das companhias de serviço completo. Os modelos mais precisos para os três conjuntos de dados são as florestas aleatória seguidos pelos modelos de K vizinhanças próximas. Os resultados deste trabalho sugerem que uma parte significativa do preço pode ser prevista utilizando detalhes relacionados com o voo, como o número de dias até a partida e a duração da viagem. Contudo, permanece uma certa variabilidade não explicada que pode dever-se a fatores externos não incluídos na presente análise. | pt_PT |
dc.identifier.tid | 203378288 | pt_PT |
dc.identifier.uri | http://hdl.handle.net/10400.14/43176 | |
dc.language.iso | eng | pt_PT |
dc.subject | Price prediction | pt_PT |
dc.subject | Dynamic pricing | pt_PT |
dc.subject | Machine learning | pt_PT |
dc.subject | Airline industry | pt_PT |
dc.subject | Random forest | pt_PT |
dc.subject | Previsão de preços | pt_PT |
dc.subject | Fixação dinâmica de preços | pt_PT |
dc.subject | Aprendizagem automática | pt_PT |
dc.subject | Setor da aviação | pt_PT |
dc.subject | Florestas aleatórias | pt_PT |
dc.title | Forecasting flight prices with machine learning models : a comparative analysis between low and high-cost airlines | pt_PT |
dc.type | master thesis | |
dspace.entity.type | Publication | |
rcaap.rights | openAccess | pt_PT |
rcaap.type | masterThesis | pt_PT |
thesis.degree.name | Mestrado em Análise de Dados para Gestão | pt_PT |