| Name: | Description: | Size: | Format: | |
|---|---|---|---|---|
| 1.08 MB | Adobe PDF | 
Authors
Advisor(s)
Abstract(s)
Protecting sensitive client information is a critical responsibility of every business. Call centers in the telecommunications sector generate a substantial volume of conversational data containing sensitive client data. To adhere to rules such as the General Data Protection Regulation (GDPR) and CNPD, personally identifiable information (PII) of customers must be precisely recognized and removed from the data. This thesis examines Named Entity Recognition (NER), a component of Natural Language Processing (NLP) focused on the extraction of named entities from textual data. Moreover, redacting personally identifiable information in noisy Portuguese automatic speech recognition (ASR) call center transcripts present significant challenges. We investigated three methodologies. Initially employing rule-based regex extraction, followed by zero-shot extraction utilizing pre-trained transformer models and fine-tuning transformer-based NER models. The experiment results indicate that regex may extract entities following a specified pattern. Zero shot models exhibit superior performance on semantically sophisticated entities, like names and addresses. Ultimately, fine-tuning transformer models accomplished the objective of redacting PII items with superior accuracy compared to simpler techniques such as regex and zero-shot methods. To enhance the performance, techniques such as data augmentation were implemented to increase the training data, as transformer models require lots of data. The powerful language processing capabilities of transformers enable the efficient extraction of PII from noisy Portuguese call center transcripts. Furthermore, transformer models employ neural networks to identify entities. They often display ambiguity in their prediction. Therefore, we examine the calibration levels of the transformer models to ascertain the reliability of the predictions.
Proteger informações confidenciais de clientes é uma responsabilidade crítica de todas as empresas. Call centers no setor de telecomunicações geram um volume substancial de dados de conversação contendo dados confidenciais de clientes. Para cumprir regras como o Regulamento Geral sobre a Proteção de Dados (RGPD) e as diretrizes da Comissão Nacional de Proteção de Dados (CNPD), as informações de identificação pessoal (PII) dos clientes devem ser reconhecidas com precisão e removidas dos dados. Esta tese examina o Reconhecimento de Entidades Nomeadas (NER), um componente do Processamento de Linguagem Natural (PLN) focado na extração de entidades nomeadas de dados textuais. Além disso, a redação de informações de identificação pessoal em transcrições ruidosas de call centers com reconhecimento automático de fala (ASR) em português apresenta desafios significativos. Investigamos três metodologias. Inicialmente, empregamos extração de regex baseada em regras, seguida por extração por zero-shot utilizando modelos de transformador pré-treinados e modelos NER baseados em transformadores de ajuste fino. Os resultados do experimento indicam que regex pode extrair entidades seguindo um padrão especificado. Modelos de zero-shot apresentam desempenho superior em entidades semanticamente sofisticadas, como nomes e endereços. Em última análise, o ajuste fino dos modelos de transformador atingiu o objetivo de redigir itens PII com precisão superior em comparação com técnicas mais simples, como regex e métodos de zero-shot. Para aprimorar o desempenho, técnicas como aumento de dados foram implementadas para aumentar os dados de treinamento, visto que os modelos de transformadores exigem muitos dados. As habilidades avançadas de compreensão da linguagem dos transformadores facilitam a extração eficaz de itens PII de transcrições ruidosas de call centers em português. Além disso, os modelos de transformadores utilizam redes neurais para extrair entidades. Eles frequentemente apresentam incerteza em suas previsões. Consequentemente, avaliamos os níveis de calibração dos modelos de transformadores para avaliar a confiança das previsões.
Proteger informações confidenciais de clientes é uma responsabilidade crítica de todas as empresas. Call centers no setor de telecomunicações geram um volume substancial de dados de conversação contendo dados confidenciais de clientes. Para cumprir regras como o Regulamento Geral sobre a Proteção de Dados (RGPD) e as diretrizes da Comissão Nacional de Proteção de Dados (CNPD), as informações de identificação pessoal (PII) dos clientes devem ser reconhecidas com precisão e removidas dos dados. Esta tese examina o Reconhecimento de Entidades Nomeadas (NER), um componente do Processamento de Linguagem Natural (PLN) focado na extração de entidades nomeadas de dados textuais. Além disso, a redação de informações de identificação pessoal em transcrições ruidosas de call centers com reconhecimento automático de fala (ASR) em português apresenta desafios significativos. Investigamos três metodologias. Inicialmente, empregamos extração de regex baseada em regras, seguida por extração por zero-shot utilizando modelos de transformador pré-treinados e modelos NER baseados em transformadores de ajuste fino. Os resultados do experimento indicam que regex pode extrair entidades seguindo um padrão especificado. Modelos de zero-shot apresentam desempenho superior em entidades semanticamente sofisticadas, como nomes e endereços. Em última análise, o ajuste fino dos modelos de transformador atingiu o objetivo de redigir itens PII com precisão superior em comparação com técnicas mais simples, como regex e métodos de zero-shot. Para aprimorar o desempenho, técnicas como aumento de dados foram implementadas para aumentar os dados de treinamento, visto que os modelos de transformadores exigem muitos dados. As habilidades avançadas de compreensão da linguagem dos transformadores facilitam a extração eficaz de itens PII de transcrições ruidosas de call centers em português. Além disso, os modelos de transformadores utilizam redes neurais para extrair entidades. Eles frequentemente apresentam incerteza em suas previsões. Consequentemente, avaliamos os níveis de calibração dos modelos de transformadores para avaliar a confiança das previsões.
Description
Keywords
 Aprendizado profundo   Aumento de dados   Conformidade com a privacidade de dados   Data augmentation   Data privacy compliance   Deep learning   Entidades PII   Named entity recognition   Natural language processing   PII entities   Portuguese call center transcripts   Processamento de linguagem natural   Reconhecimento de entidades nomeadas   Transcrições de call center em português   Transformadores   Transformers 
Pedagogical Context
Citation
Publisher
CC License
Without CC licence
