Aplicação de métodos de aprendizagem de máquina profunda para redução de ruído em sinais de fala

Paiva, José Luís Meias Coutinho de

http://hdl.handle.net/10400.14/52856

Use this identifier to reference this record.

Name:	Description:	Size:	Format:
203904052.pdf		2.95 MB	Adobe PDF	Download

Send Feedback

Authors

Paiva, José Luís Meias Coutinho de

Advisor(s)

Rodrigues, Pedro Miguel de Luís

Bispo, Bruno Catarino

Abstract(s)

A digitalização e evolução dos meios de comunicação têm sido temas amplamente discutidos, e as tecnologias relacionadas também são alvo de debate. A comunicação tornou-se mais rápida e eficiente com os avanços tecnológicos, mas surgiram problemas como a distorção do som por ruídos, ecos e reverberações. Para mitigar esses distúrbios, a Inteligência Artificial (IA) pode desempenhar um papel crucial. Este trabalho visou criar mecanismos de IA para identificar e atenuar o Eco Acústico, focando-se nas Redes Neuronais Convolucionais (CNN) para identificar diferentes perturbações sonoras. Foi usada uma CNN para identificar automaticamente 4 tipos de sinais sonoros: sinal limpo, sinal limpo + eco, sinal limpo + ruído e sinal limpo + reverberação. Os sinais limpos foram extraídos da base de dados TIMIT da Defense Advanced Research Projects Agency (DARPA) e manipulados para obter os restantes sinais com diferentes tipos de perturbação. Os espetrogramas de cada sinal foram calculados e usados como entrada para 4 CNNs. A melhor CNN atingiu uma precisão de 98%, demonstrando grande capacidade para diferenciar os diferentes tipos de sinal + perturbações em condições controladas. Na Atenuação do Eco Acústico, os resultados desejados foram mais difíceis de alcançar. Diversas abordagens foram utilizadas, incluindo o uso de sinais de fala manipulados e diferentes saídas esperadas, como sinais de fala reconstruídos sem eco e espetrogramas. Foram utilizadas Redes Neuronais Profundas (DNN), CNNs e Autoencoders Convolucionais, mas os resultados não foram satisfatórios, onde a métrica PESQ, usada para avaliar a qualidade da fala percebida em sinais de áudio, obteve uma média de 1,12 para os Autoencoders, abaixo das expectativas. Em resumo, a tarefa de Classificação foi bem-sucedida e serve de base para trabalhos mais complexos. Os resultados menos promissores na Atenuação do Eco Acústico indicam a necessidade de melhorias e a possível utilização de outras técnicas, como redes BLSTM, GRU e Autoencoders recorrentes.

The digitalisation and evolution of communication media have been widely discussed topics, and the related technologies are also subject to debate. Communication has become faster and more efficient with growing technological advancements, but issues such as sound distortion due to noise, echo, and reverberations surged into existence. To mitigate these disturbances, AI can play a crucial role. This work aimed to create AI mechanisms to identify and attenuate Acoustic Echo, focusing on CNNs to identify different sound disturbances. A CNN was used to automatically identify 4 types of sound signals: clean signal, clean signal + echo, clean signal + noise, and clean signal + reverberation. The clean signals were extracted from the TIMIT database of DARPA and manipulated to obtain the remaining signals with different types of disturbances. The spectrograms of each signal were calculated and used as input for 4 CNNs. The best CNN achieved an accuracy of 98%, demonstrating a great ability to differentiate the different types of signals + disturbances under controlled conditions. In Acoustic Echo Attenuation, the desired results were harder to achieve. Various approaches were used, including the use of manipulated speech signals and different expected outputs, such as reconstructed speech signals without echo and spectrograms. DNNs, CNNs, and Convolutional Autoencoders were used, but the results were unsatisfactory, with the PESQ metric, used to evaluate the perceived speech quality in audio signals, averaging 1.12 for the Autoencoders, below expectations. In summary, the Classification task was successful and serves as a basis for more complex work. The less promising results in Acoustic Echo Attenuation indicate the need for improvements and the possible use of other techniques, such as BLSTM networks, GRU, and recurrent Autoencoders.