Reconhecimento de comandos de voz em português brasileiro em ambientes ruidosos usando laringofone

Ribeiro, Fábio Cisne

Use este identificador para citar ou linkar para este item: http://repositorio.ufc.br/handle/riufc/40251

Registro completo de metadados

Campo DC	Valor	Idioma
dc.contributor.advisor	Cortez, Paulo César	-
dc.contributor.author	Ribeiro, Fábio Cisne	-
dc.date.accessioned	2019-03-12T11:11:39Z	-
dc.date.available	2019-03-12T11:11:39Z	-
dc.date.issued	2019	-
dc.identifier.citation	RIBEIRO, F. C. Reconhecimento de comandos de voz em português brasileiro em ambientes ruidosos usando laringofone. 2019. 17 f. Tese (Doutorado em Engenharia de Teleinformática)–Centro de Tecnologia, Universidade Federal do Ceará, Fortaleza, 2019.	pt_BR
dc.identifier.uri	http://www.repositorio.ufc.br/handle/riufc/40251	-
dc.description.abstract	This thesis has as main objective the development of a system for voice commands recognition in noisy environments through isolated words spoken independent of a speaker, with emphasis on the use of throat microphone which is a acquisition sensor for speech signal more robust for this type of environment. The technology studied is presented through integrated hardware and software device that allow the use of speech as an instrument for the operation of a technological equipment. Thus, were research which techniques are best to perform the proposed voice processing. There is no other database with voice commands captured using throat microphone in Portuguese language in the researched literature. We created a database with isolated voice commands with captured utterances of 150 people (men and women). All voice samples are captured in Brazilian Portuguese, and are the digits “0” through “9” and the words “Ok” and “Cancel”. To remove the captured noises two filters were used, the Least Mean Squares in the temporal space and the Wavelet Transform in the space in frequency, so that this set allowed to remove the noises that are captured by the laringophone. The best feature extractor tested is the Perceptual LinearPrediction and its best configuration is the use of 9 or 10 indexes in the order of their coefficients. For classification it been used a voting committee composed of three classifiers, MLP, BMLP and SOM to recognize the voice command. For classification a voting committee composed of three classifiers, Multilayer Perceptron, Binary Multilayer Perceptron and SelfOrganizing Maps to recognize command of voice. The results show that throat microphone is robust in noise environment, reaching 96,6% of hit rate in our voice command recognition system. It was observed that vowels with low intensity and fricatives present in the words “3” and “7” in Portuguese confuse the classifier.	pt_BR
dc.language.iso	pt_BR	pt_BR
dc.subject	Teleinformática	pt_BR
dc.subject	Reconhecimento automático da voz	pt_BR
dc.subject	SSistemas de reconhecimento de padrões	pt_BR
dc.subject	Redes neurais (Computação)	pt_BR
dc.subject	Speech recognition	pt_BR
dc.subject	Throat microphone	pt_BR
dc.subject	Pattern recognition	pt_BR
dc.subject	Neural networks	pt_BR
dc.title	Reconhecimento de comandos de voz em português brasileiro em ambientes ruidosos usando laringofone	pt_BR
dc.type	Tese	pt_BR
dc.description.abstract-ptbr	Esta tese tem como objetivo principal o desenvolvimento de um sistema para reconhecimento de comandos de voz em ambientes ruidosos através de palavras isoladas e independentes do locutor, com ênfase no uso do laringofone, que é um sensor de aquisição do sinal da fala mais robusto para ambientes ruidosos. A tecnologia estudada apresenta-se através de dispositivos integrados de hardware e software, que permitem usar a fala como instrumento de operação de equipamentos tecnológicos. Assim, foram pesquisadas quais técnicas que melhor se adéquam para realização do processamento de voz proposto. Como não há outro conjunto de dados com comandos de voz capturados usando o laringofone na língua Portuguesa do Brasil na literatura pesquisada, criamos um conjunto de dados com comandos de voz isolados com elocuções capturadas de 150 pessoas (homens e mulheres). Todas as amostras de voz são capturadas em Português Brasileiro, e são os dígitos “0” a “9” e as palavras “Ok” e “Cancelar”. Para remover os ruídos capturados, dois filtros foram utilizados, o Least Mean Squares no espaço temporal e a Transformada Wavelet no espaço em frequência, de forma que esse conjunto permitiu remover os ruídos que são capturados pelo laringofone. O melhor extrator de características testado é o Perceptual Linear Prediction e sua melhor configuração é utilizando 9 ou 10 índices na ordem dos seus coeficientes. Para classificação utilizou-se um comitê votador composto por três classificadores, Perceptron Multicamadas, Perceptron Multicamadas Binário e Mapas Auto-Organizáveis para reconhecer o comando de voz. Os resultados mostram que o laringofone é robusto no ambiente de ruído, alcançando 96,6% de taxa de acertos em nosso sistema de reconhecimento de comandos de voz. Foi observado que vogais com baixa intensidade e fricativos presentes nas palavras “3” e “7” em Português confundem o classificador.	pt_BR
Aparece nas coleções:	DETE - Teses defendidas na UFC

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
2019_tese_fcribeiro.pdf		370,05 kB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Visualizar estatísticas