Repository logo
 
No Thumbnail Available
Publication

Multi-armed bandits : a simulation gym for customer retention in a TelCo

Use this identifier to reference this record.
Name:Description:Size:Format: 
203299710.pdf1.02 MBAdobe PDF Download

Abstract(s)

The highly competitive telecommunications industry poses a significant challenge for TelCos in retaining customers. To achieve customer retention, TelCos often utilize Machine Learning (ML) algorithms to align their product offerings with client preferences. However, these algorithms have limitations in exploiting past client interactions that may contain biases from various sources. This thesis investigates the potential of multi-armed bandits (MABs) to address this challenge. MABs are a type of reinforcement learning algorithm that maximizes long-term rewards and has been used in various industries to optimize resource allocation. This study uses historical data from proactive customer retention to build a gym, simulating the daily operations of a TelCo. The gym allows for the evaluation of multiple policies and scenarios in an offline environment. The study’s findings show that MABs can balance exploration and exploitation and outperform classical algorithms in certain cases. However, when the number of possible arms increases dramatically, simpler MAB algorithms may struggle. The study also shows how we can strategically limit these arms to increase performance without changing the algorithm to one more complex. Overall, this research enhances the understanding of the potential and limitations of MABs for customer retention in TelCos and provides insights for their successful implementation and deployment.
A indústria de telecomunicações altamente competitiva apresenta um desafio significativo para as TelCos na retenção de clientes. Para alcançar a retenção de clientes, as TelCos geralmente utilizam algoritmos de Aprendizado de Máquina (ML) para alinhar suas ofertas de produtos com as preferências dos clientes. No entanto, esses algoritmos têm limitações na exploração de interações passadas com clientes que podem conter viéses de diversas fontes. Esta tese investiga o potencial dos bandits multi-braços (MABs) para enfrentar esse desafio. MABs são um tipo de algoritmo de aprendizado por reforço que maximiza as recompensas a longo prazo e tem sido utilizado em diversas indústrias para otimizar a alocação de recursos. Este estudo utiliza dados históricos de retenção de clientes proativa para construir uma academia, simulando as operações diárias de uma TelCo. A academia permite a avaliação de múltiplas políticas e cenários em um ambiente offline. Os resultados do estudo mostram que os MABs podem equilibrar a exploração e a explotação e superar algoritmos clássicos em determinados casos. No entanto, quando o número de possíveis braços aumenta drasticamente, os algoritmos MAB mais simples podem enfrentar dificuldades. O estudo também mostra como podemos limitar estrategicamente esses braços para aumentar o desempenho sem mudar o algoritmo para um mais complexo. Em geral, esta pesquisa aprimora a compreensão do potencial e das limitações dos MABs para a retenção de clientes nas TelCos e fornece insights para sua implementação e implantação bem-sucedidas.

Description

Keywords

Multi-armed bandits Customer retention Recommendation systems Churn Offline policy evaluation Retenção de clientes Sistemas de recomendação Avaliação offline de políticas

Pedagogical Context

Citation

Research Projects

Organizational Units

Journal Issue