Use este identificador para citar ou linkar para este item: http://repositorio.ufc.br/handle/riufc/40251
Registro completo de metadados
Campo DCValorIdioma
dc.contributor.advisorCortez, Paulo César-
dc.contributor.authorRibeiro, Fábio Cisne-
dc.date.accessioned2019-03-12T11:11:39Z-
dc.date.available2019-03-12T11:11:39Z-
dc.date.issued2019-
dc.identifier.citationRIBEIRO, F. C. Reconhecimento de comandos de voz em português brasileiro em ambientes ruidosos usando laringofone. 2019. 17 f. Tese (Doutorado em Engenharia de Teleinformática)–Centro de Tecnologia, Universidade Federal do Ceará, Fortaleza, 2019.pt_BR
dc.identifier.urihttp://www.repositorio.ufc.br/handle/riufc/40251-
dc.description.abstractThis thesis has as main objective the development of a system for voice commands recognition in noisy environments through isolated words spoken independent of a speaker, with emphasis on the use of throat microphone which is a acquisition sensor for speech signal more robust for this type of environment. The technology studied is presented through integrated hardware and software device that allow the use of speech as an instrument for the operation of a technological equipment. Thus, were research which techniques are best to perform the proposed voice processing. There is no other database with voice commands captured using throat microphone in Portuguese language in the researched literature. We created a database with isolated voice commands with captured utterances of 150 people (men and women). All voice samples are captured in Brazilian Portuguese, and are the digits “0” through “9” and the words “Ok” and “Cancel”. To remove the captured noises two filters were used, the Least Mean Squares in the temporal space and the Wavelet Transform in the space in frequency, so that this set allowed to remove the noises that are captured by the laringophone. The best feature extractor tested is the Perceptual LinearPrediction and its best configuration is the use of 9 or 10 indexes in the order of their coefficients. For classification it been used a voting committee composed of three classifiers, MLP, BMLP and SOM to recognize the voice command. For classification a voting committee composed of three classifiers, Multilayer Perceptron, Binary Multilayer Perceptron and SelfOrganizing Maps to recognize command of voice. The results show that throat microphone is robust in noise environment, reaching 96,6% of hit rate in our voice command recognition system. It was observed that vowels with low intensity and fricatives present in the words “3” and “7” in Portuguese confuse the classifier.pt_BR
dc.language.isopt_BRpt_BR
dc.subjectTeleinformáticapt_BR
dc.subjectReconhecimento automático da vozpt_BR
dc.subjectSSistemas de reconhecimento de padrõespt_BR
dc.subjectRedes neurais (Computação)pt_BR
dc.subjectSpeech recognitionpt_BR
dc.subjectThroat microphonept_BR
dc.subjectPattern recognitionpt_BR
dc.subjectNeural networkspt_BR
dc.titleReconhecimento de comandos de voz em português brasileiro em ambientes ruidosos usando laringofonept_BR
dc.typeTesept_BR
dc.description.abstract-ptbrEsta tese tem como objetivo principal o desenvolvimento de um sistema para reconhecimento de comandos de voz em ambientes ruidosos através de palavras isoladas e independentes do locutor, com ênfase no uso do laringofone, que é um sensor de aquisição do sinal da fala mais robusto para ambientes ruidosos. A tecnologia estudada apresenta-se através de dispositivos integrados de hardware e software, que permitem usar a fala como instrumento de operação de equipamentos tecnológicos. Assim, foram pesquisadas quais técnicas que melhor se adéquam para realização do processamento de voz proposto. Como não há outro conjunto de dados com comandos de voz capturados usando o laringofone na língua Portuguesa do Brasil na literatura pesquisada, criamos um conjunto de dados com comandos de voz isolados com elocuções capturadas de 150 pessoas (homens e mulheres). Todas as amostras de voz são capturadas em Português Brasileiro, e são os dígitos “0” a “9” e as palavras “Ok” e “Cancelar”. Para remover os ruídos capturados, dois filtros foram utilizados, o Least Mean Squares no espaço temporal e a Transformada Wavelet no espaço em frequência, de forma que esse conjunto permitiu remover os ruídos que são capturados pelo laringofone. O melhor extrator de características testado é o Perceptual Linear Prediction e sua melhor configuração é utilizando 9 ou 10 índices na ordem dos seus coeficientes. Para classificação utilizou-se um comitê votador composto por três classificadores, Perceptron Multicamadas, Perceptron Multicamadas Binário e Mapas Auto-Organizáveis para reconhecer o comando de voz. Os resultados mostram que o laringofone é robusto no ambiente de ruído, alcançando 96,6% de taxa de acertos em nosso sistema de reconhecimento de comandos de voz. Foi observado que vogais com baixa intensidade e fricativos presentes nas palavras “3” e “7” em Português confundem o classificador.pt_BR
Aparece nas coleções:DETE - Teses defendidas na UFC

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
2019_tese_fcribeiro.pdf370,05 kBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.