Um estudo de caso do modelo de reconhecimento de voz whisper para transcrição de conferências tedx via aprendizado fraco

Rabelo, Liomar Renner Araujo

Use este identificador para citar ou linkar para este item: http://repositorio.ufc.br/handle/riufc/73941

Registro completo de metadados

Campo DC	Valor	Idioma
dc.contributor.advisor	Aragão, Francisco Erivelton Fernandes de	-
dc.contributor.author	Rabelo, Liomar Renner Araujo	-
dc.date.accessioned	2023-08-11T16:49:51Z	-
dc.date.available	2023-08-11T16:49:51Z	-
dc.date.issued	2022	-
dc.identifier.citation	RABELO, Liomar Renner Araujo. Um estudo de caso do modelo de reconhecimento de voz whisper para transcrição de conferências tedx via aprendizado fraco. 2022. 36 f. Trabalho de Conclusão de Curso (Graduação em Engenharia de Software)-Universidade Federal do Ceará, Campus de Quixadá, Quixadá, 2022.	pt_BR
dc.identifier.uri	http://www.repositorio.ufc.br/handle/riufc/73941	-
dc.description.abstract	Machine learning models for speech recognition tasks are often trained with unsupervised learning because of the difficulty of collecting high-quality labeled data. The multitasking and multilingual speech recognition model called Whisper gave us the possibility to use a state-of-art model in the area of natural language processing for free. The great innovation of this model was to use weak learning, mixing a large amount of labeled data and unlabeled data, with a high degree of content diversity, demonstrating that weak learning can perform at the same level as other state-of-art models. The Whisper model’s voice recognition and transcription-to-text capabilities in Portuguese were studied by applying the Multilingual TEDx dataset, which contains more than 150 hours of high-quality audio in .flac format and entirely in Portuguese, in addition to their transcripts audios in .vtt format. We were able to observe an error rate below 1, using the Word Error Rate metric, fluctuating between 0.3 and 0.7. This rate demonstrates that the model can, when exposed to small inputs, have an error rate below that recorded in training when exposed to larger inputs.	pt_BR
dc.language.iso	pt_BR	pt_BR
dc.subject	Inteligência artificial	pt_BR
dc.subject	Aprendizagem profunda	pt_BR
dc.subject	Reconhecimento automático da voz	pt_BR
dc.title	Um estudo de caso do modelo de reconhecimento de voz whisper para transcrição de conferências tedx via aprendizado fraco	pt_BR
dc.type	TCC	pt_BR
dc.description.abstract-ptbr	Modelos de aprendizado de máquina para tarefas de reconhecimento de voz são geralmente treinados com aprendizado não supervisionado, devido a dificuldade de coletar dados rotulados de alta qualidade. O modelo de reconhecimento de voz multitarefa e multilinguagem chamado Whisper nos fornece a possibilidade de utilizar gratuitamente um modelo estado-da-arte na área de processamento de linguagem natural. A grande inovação deste modelo foi utilizar Aprendizado supervisionado fraco, misturando uma grande quantidade de dados rotulados e não rotulados, com um alto grau de diversidade de conteúdo, demonstrando que Aprendizado supervisionado fraco pode performar no mesmo nível que outros modelos estado-da-arte. Foi estudado as capacidades de reconhecimento de voz e transcrição para texto na língua portuguesa, do modelo Whisper ao aplicarmos o dataset Multilingual TEDx que contém mais de 150 horas de áudio de alta qualidade no formato .flac e totalmente na língua portuguesa, além das transcrições dos mesmos áudios no formato .vtt. Conseguimos observar uma taxa de erro abaixo de 1, utilizando a métrica Word Error Rate, flutuando entre 0.3 e 0.7, essa taxa demonstra que o modelo consegue quando exposto a entradas pequenas ter uma taxa de erro abaixo do registrado no treinamento quando exposto a entradas maiores.	pt_BR
Aparece nas coleções:	ENGENHARIA DE SOFTWARE - QUIXADÁ - TCC

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
2022_tcc_lrarabelo.pdf		854,75 kB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Visualizar estatísticas