Atenuação de ruído em sinais de voz utilizando redes neurais profundas

Araújo, Jacques Henrique Bessa

Please use this identifier to cite or link to this item: http://repositorio.ufc.br/handle/riufc/52548

Type:	Dissertação
Title:	Atenuação de ruído em sinais de voz utilizando redes neurais profundas
Authors:	Araújo, Jacques Henrique Bessa
Advisor:	Cortez, Paulo César
Keywords:	Teleinformática;Processamento de sinais;Ruído - Controle;Deep neural network;Spectral mapping
Issue Date:	2020
Citation:	ARAÚJO, J. H. B. Atenuação de ruído em sinais de voz utilizando redes neurais profundas. 2020. 119 f. Dissertação (Mestrado em Engenharia de Teleinformática) – Centro de Tecnologia, Universidade Federal do Ceará, Fortaleza, 2020.
Abstract in Brazilian Portuguese:	A presença de SRAV tem se tornado cada vez mais comum no dia a dia das pessoas e mudado a forma como os seres humanos interagem com os dispositivos. Tais sistemas têm sido utilizados em aplicativos de pesquisa por voz, em assistentes virtuais e eletrônicos, em sistemas de automação residencial e veicular, em jogos e aplicativos de entretenimento, em transcritores de texto, em tradutores instantâneos, em sistemas de reconhecimento de pessoas e de emoções, entre outros. O advento e o crescimento da internet das coisas e a evolução das comunicações móveis potencializam a utilização de tais sistemas, uma vez que dispositivos de entrada e saída comumente utilizados em computadores, como mouse e teclado, se tornam inadequados na interação do ser humano com, por exemplo, eletrodomésticos e sistemas de automação veicular. SRAV proporcionam uma interação homem-máquina natural e conveniente à natureza humana. Nesse sentido, é imprescindível que tais sistemas sejam confiáveis e precisos. No entanto, em condições adversas, altos níveis de ruído, reverberação e sinais interferentes de múltiplas fontes interferem no reconhecimento correto da fala. A taxa de erro de palavra, métrica comumente utilizada em sistemas de reconhecimento automático de voz, está intrinsecamente relacionada a algoritmos de processamento de sinais que minimizam os efeitos ocasionados por tais fatores. Diante dessa problemática, esta dissertação se propõe a investigar a eficiência e as limitações de uma estrutura de rede neural profunda aplicada à atenuação de ruído em sinais de voz em ambientes ruidosos simulados do mundo físico. Para a avaliação de desempenho, utilizam-se quatro métricas objetivas e os resultados são comparados com os algoritmos subtração espectral e filtro de Wiener. Os resultados apontam que a rede neural profunda obteve desempenho superior em todos os cenários de ruído aditivo e relação sinal-ruído quando comparado aos demais algoritmos. Em relação à métrica LSD, o resultado médio da RNP é 36% menor comparado ao filtro de Wiener e 25% menor com relação à subtração espectral. Na métrica STOI, o resultado médio da RNP é 12% superior ao obtido pelo filtro de Wiener e 8% superior ao resultado obtido pela subtração espectral. Na métrica PESQ, a RNP é superior em 17% comparado ao filtro de Wiener e 13% em relação à subtração espectral. Já na métrica WER, a RNP apresenta um resultado 29% menor que o filtro de Wiener e 13% menor que a subtração espectral.
Abstract:	ASR have become increasingly common in people’s daily lives and have changed the way humans interact with devices. Voice search applications, virtual and electronic assistants, home and vehicular automation systems, games and entertainment applications, text transcribers, voice translators, people, and emotion recognition systems, among others, are some ASR applications. The advent and growth of the Internet of things and the evolution of mobile communications enhance the use of such systems, since input and output devices commonly used in computers, such as mouse and keyboard, become inadequate in the interaction of the human being with, for example, household appliances and vehicular automation systems. ASR provide natural and convenient human-machine interaction. In this sense, such systems must be reliable and accurate. However, in adverse conditions, high levels of noise, reverberation, and interfering signals from multiple sources interfere with correctly recognizing speech. The word error rate, a metric commonly used in automatic speech recognition systems, is intrinsically related to signal processing algorithms to minimize the effects caused by such factors. This dissertation aims to investigate the efficiency and limitations of deep neural networks applied to noise attenuation in noisy environments. Four objective metrics are used for performance evaluation and the results are compared with those obtained by spectral subtraction algorithms and Wiener filter. The results show that the DNN algorithm obtained the best results in all SNR scenarios when compared to other algorithms. About the LSD metric, the average result of RNP is 36% lower compared to the Wiener filter and 25% lower than the spectral subtraction algorithm. For the STOI metric, the average result of DNN is 12% higher than that obtained by the Wiener filter and 8% higher than that obtained by spectral subtraction. For the PESQ metric, DNN is 17% higher than the Wiener filter and 13% higher than the spectral subtraction. For the WER metric, DNN is 29% lower than the Wiener filter and 13% lower than the spectral subtraction.
URI:	http://www.repositorio.ufc.br/handle/riufc/52548
Appears in Collections:	DETE - Dissertações defendidas na UFC

Files in This Item:

File	Description	Size	Format
2020_dis_jhbaraujo.pdf		12,44 MB	Adobe PDF	View/Open

Show full item record