Caracterização e classificação de sinais de voz por combinação de vogais sustentadas: um estudo baseado na transformada wavelet haar

Oliveira, Brígida Farias Cardoso

Por favor, use este identificador para citar o enlazar este ítem: http://repositorio.ufc.br/handle/riufc/59968

Tipo:	Dissertação
Título :	Caracterização e classificação de sinais de voz por combinação de vogais sustentadas: um estudo baseado na transformada wavelet haar
Autor :	Oliveira, Brígida Farias Cardoso
Tutor:	Medeiros, Fátima Nelsizeuma Sombra de
Co-asesor:	Magalhães, Deborah Maria Vieira
Palabras clave :	Wavelet Haar;Análise estatística de Kruskal-Wallis;Detecção de distúrbios na voz;Vogais sustentadas
Fecha de publicación :	2021
Citación :	OLIVEIRA, Brígida Farias Cardoso. Caracterização e classificação de sinais de voz por combinação de vogais sustentadas: um estudo baseado na transformada wavelet haar. 2021. 42 f. Dissertação (Mestrado em Engenharia de Teleinformática) – Universidade Federal do Ceará, Centro de Tecnologia, Programa de Pós-graduação em Engenharia de Teleinformática, Fortaleza, 2021.
Resumen en portugués brasileño:	Este trabalho investiga o uso de vogais sustentadas isoladas e combinadas na classificação de sinais de voz normais e sinais de voz com disfonia com base na energia dos coeficientes de decomposição da transformada wavelet Haar, considerando os gêneros masculino e feminino e uma combinação de ambos. É realizado ainda o teste estatístico de Kruskal-Wallis onde analisamos os pares de variáveis compostos pelas vogais (isoladas ou combinadas) e o nível de decomposição wavelet. A saída deste teste estatístico permite identificar os níveis de de- composição do sinal que alcançam os melhores valores de acurácia da classificação. O menor nível de decomposição wavelet foi selecionado neste trabalho por estar associado ao menor custo computacional. Embora trabalhos recentes tenham mostrado que vogais sustentadas iso- ladas permitem a caracterização precisa da voz, a literatura carece de evidências sobre o uso da combinação dessas vogais. A metodologia proposta para caracterização e classificação de vozes normais e anormais considera o cálculo da energia dos coeficientes de aproximação e de detalhes obtidos da decomposição da transformada wavelet Haar. Utilizamos a combinação das vogais sustentadas /a/, /i/ e /u/ na detecção de distúrbios na voz assim como destas vogais isoladas de forma a identificar o cenário que resulta na melhor classificação dos sinais de voz. Conduzimos experimentos em duas bases de dados públicas de origem portuguesa e alemã, Advanced Voice Function Assessment Database (AVFAD) e Saarbrücken Voice Database (SVD), respectivamente. Analisamos os níveis de decomposição wavelet no intervalo de 4 a 18 nos diferentes cenários, a saber, vozes de falantes dos gêneros feminino e masculino e ambos os gêneros. Os resultados obtidos revelaram que os coeficientes wavelet extraídos da combinação de vogais melhoraram a descrição do sinal e, portanto, a identificação de características sutis de vozes doentes e saudáveis. Também mostramos que as características baseadas na energia dos coeficientes da transformada wavelet Haar extraídas de vogais combinadas alcançaram uma boa classificação de voz com menor número de decomposições. Esta abordagem melhorou a acurácia em pelo menos 2,61% e 15,61% para dados das bases AVFAD e SVD, respectivamente, independentemente do gênero do falante.
Abstract:	This work investigates the use of single and combined sustained vowels in the characterization of normal and abnormal voice signals based on the Haar wavelet decomposition coefficients, considering signals from the biological genders male and female and a combination of both. We also perform the Kruskal-Wallis statistical test, in order to analyze the pairs of variables composed of the vowels (single or combined) and the wavelet decomposition levels. The output of this statistical test allows identifying which level reaches (leads to) the best classification accuracy. We selected the lowest level of decomposition because it is associated with the lowest computational cost. Although recent studies have shown that single sustained vowels allow accurate voice characterization, the literature lacks evidence on using the combination of them. The proposed methodology for characterizing and classifying normal and abnormal voices considers the energy calculation of details and approximation coefficients obtained from the decomposition of the Haar wavelet transform. We use the /a/, /i/, and /u/ single vowels and the combination to identify the scenario that results in the best classification of the voice signals. We conducted experiments on two public datasets, one from Portugal named Advanced Voice Function Assessment Database (AVFAD) and another one from Germany named Saarbrücken Voice Database (SVD). We analyzed the wavelet decomposition levels in the range of 4 to 18 in different scenarios: voices of female and male speakers and both genders. Our results revealed that the wavelet coefficients extracted from the combination of vowels improved the signal description and identified subtle features of pathological voices. We also showed that the Haar wavelet-based features extracted from combined vowels achieved accurate voice classification with fewer decomposition levels. This approach enabled accuracy improvements of at least 2,61% e 15,61% for AVFAD and SVD datasets, respectively, regardless of the biological gender.
URI :	http://www.repositorio.ufc.br/handle/riufc/59968
Aparece en las colecciones:	DETE - Dissertações defendidas na UFC

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
2021_dis_bfcoliveira.pdf		2,64 MB	Adobe PDF	Visualizar/Abrir

Mostrar el registro Dublin Core completo del ítem