| Name: | Description: | Size: | Format: | |
|---|---|---|---|---|
| 1.37 MB | Adobe PDF |
Authors
Advisor(s)
Abstract(s)
In the digital era, a wealth of heterogeneous data is collected globally about various entities such as individuals, professionals, or companies. Extracting value from this data requires linking individual data points that describe the same entity. However, the diversity of sources and the absence of a unique identifier complicate this process. This study addresses this challenge by exploring the potential of probabilistic record linkage techniques to associate entries in the National Provider Identifier (NPI) database with physician’s social network profiles. The research was conducted in collaboration with Alpha Sophia, a startup aiming to build a leading commercial intelligence platform for the US healthcare market. The thesis proposes an innovative strategy for generating labeled data, which comprises a combination of deterministic record linkage and noise injection. This strategy facilitates the implementation of various supervised learning models, such as random forest, alongside the benchmark, the Fellegi-Sunter model. The primary finding is the superior performance of supervised models over the benchmark, demonstrating the advantage of the innovative approach. Over 142 thousand new matches were identified while maintaining a minimal false positive rate. This equates to an approximate 64% increase in the total number of linked data records compared to the number of matches discovered through traditional methods. Moreover, cost savings exceeding 68 thousand euros were realized. The methodologies and model presented can be tailored to address other linkage challenges that Alpha Sophia and other companies encounter. It is recommended to employ the outlined techniques in diverse contexts with varying datasets in the future.
Na era digital, uma grande quantidade de dados heterogéneos é coletada globalmente sobre várias entidades, como indivíduos, profissionais ou empresas. Extrair valor desses dados requer a ligação de pontos de dados que descrevem a mesma entidade, um processo complicado pela diversidade de fontes e ausência de um identificador único. Este estudo aborda este desafio ao explorar o potencial das técnicas de ligação probabilística de registos para associar entradas na base de dados do NPI aos perfis das redes sociais dos médicos. A investigação foi realizada em colaboração com a Alpha Sophia, uma startup visando criar uma plataforma de inteligência comercial para o mercado de saúde nos EUA. A tese propõe uma estratégia inovadora para gerar dados rotulados, combinando ligação determinística de registos e injeção de ruído. Esta estratégia facilita a implementação de vários modelos de aprendizagem supervisionada, como a floresta aleatória, ao lado do modelo Fellegi-Sunter. A descoberta principal é o desempenho superior dos modelos supervisionados em relação ao modelo de referência, demonstrando a vantagem da abordagem inovadora. Foram identificadas mais de 142 mil novas correspondências, mantendo uma taxa mínima de falsos positivos. Isto equivale a um aumento de cerca de 64% no número total de registos de dados ligados, resultando em poupanças de custos superiores a 68 mil euros. As metodologias e o modelo apresentados podem ser adaptados para responder a outros de safios de ligação que a Alpha Sophia e outras empresas possam enfrentar. Recomenda-se a aplicação destas técnicas em contextos diversos com conjuntos de dados variados no futuro.
Na era digital, uma grande quantidade de dados heterogéneos é coletada globalmente sobre várias entidades, como indivíduos, profissionais ou empresas. Extrair valor desses dados requer a ligação de pontos de dados que descrevem a mesma entidade, um processo complicado pela diversidade de fontes e ausência de um identificador único. Este estudo aborda este desafio ao explorar o potencial das técnicas de ligação probabilística de registos para associar entradas na base de dados do NPI aos perfis das redes sociais dos médicos. A investigação foi realizada em colaboração com a Alpha Sophia, uma startup visando criar uma plataforma de inteligência comercial para o mercado de saúde nos EUA. A tese propõe uma estratégia inovadora para gerar dados rotulados, combinando ligação determinística de registos e injeção de ruído. Esta estratégia facilita a implementação de vários modelos de aprendizagem supervisionada, como a floresta aleatória, ao lado do modelo Fellegi-Sunter. A descoberta principal é o desempenho superior dos modelos supervisionados em relação ao modelo de referência, demonstrando a vantagem da abordagem inovadora. Foram identificadas mais de 142 mil novas correspondências, mantendo uma taxa mínima de falsos positivos. Isto equivale a um aumento de cerca de 64% no número total de registos de dados ligados, resultando em poupanças de custos superiores a 68 mil euros. As metodologias e o modelo apresentados podem ser adaptados para responder a outros de safios de ligação que a Alpha Sophia e outras empresas possam enfrentar. Recomenda-se a aplicação destas técnicas em contextos diversos com conjuntos de dados variados no futuro.
Description
Keywords
Probabilistic record linkage Noise injection National Provider Identifier (NPI) Fellegi-Sunter model Logistic regression Random forest
