Use este identificador para citar ou linkar para este item: http://repositorio.ufc.br/handle/riufc/75294
Registro completo de metadados
Campo DCValorIdioma
dc.contributor.advisorAraripe, Leonel Figueiredo de Alencar-
dc.contributor.authorGurgel, Juliana Lopes-
dc.date.accessioned2023-12-14T15:17:51Z-
dc.date.available2023-12-14T15:17:51Z-
dc.date.issued2023-
dc.identifier.citationGURGEL, Juliana Lopes. Desambiguador morfossintático baseado em regras para o nheengatu. 2023. 139 f. Dissertação (Mestrao em Linguística) - Programa de Pós-Graduação em Linguística, Centro de Humanidades, Universidade Federal do Ceará, Fortaleza, 2023.pt_BR
dc.identifier.urihttp://repositorio.ufc.br/handle/riufc/75294-
dc.description.abstractIn this study, we describe the implementation of a disambiguation module for Nheengatagger (ALENCAR, 2020), a part-of-speech tagger for Nheengatu. This indigenous language, also known as the Amazonian Lingua Franca, has an estimated number of 14,000 speakers and is currently at risk of extinction (EBERHARD; SIMONS; FENNIG, 2023). One of the risk factors for minority language extinction is the unavailability of low-resource language tools aimed at their computational processing. In the perspective of automatic text processing of Nheengatu, Nheengatagger is one of the few initiatives. Despite correctly labeling most of the words in texts in which the orthography adopted by Navarro (2016) was used, it is still necessary for the tagger to be able to resolve ambiguities, that is, to assign the correct label to words that have more than one part-of-speech. Thus, this work aims at implementing a rule-based disambiguation module. We divided our methodology into two main stages: the compilation of texts in Nheengatu from the works of Navarro (2016), Navarro and Ávila (2017), Casasnovas (2006) and Trevisan (2017) and the implementation of the module. The compilation of the texts resulted in a corpus with 4176 sentences. The stages of implementation were: (i) the identification of ambiguities; (ii) the analysis of the contexts of the parts-of-speech in Nheengatu; (iii) the implementation of the algorithm; and (iv) the evaluation. In stage (i), we identified 55 types of ambiguities, with a total of 1047 occurrences in the development corpus (NAVARRO, 2016). In stage (iv), the disambiguator achieved accuracies of 52% and 74% in the two preliminary tests carried out with a set of 50 sentences, a result below the state-of-the-art for this type of tool, which is 95%. Based on the results of the preliminary tests, we decided to evaluate the performance of the tool using contexts extracted from sentences with and without ambiguities. In the three tests carried out after adjustments to the tool, we obtained accuracies of 80.9%, 60% and 57.5%, respectively, a result still below the state-of-the-art. On the other hand, the disambiguator significantly increased Nheengatagger's hit rate. After the integration of the module, the POS tagger achieved rates of 88.9%, 95.4% and 96.2% in the three tests, respectively.pt_BR
dc.language.isopt_BRpt_BR
dc.rightsAcesso Abertopt_BR
dc.titleDesambiguador morfossintático baseado em regras para o nheengatupt_BR
dc.typeDissertaçãopt_BR
dc.description.abstract-ptbrNeste trabalho, descrevemos a implementação do módulo desambiguador do Nheengatagger (ALENCAR, 2020), um etiquetador morfossintático para o nheengatu. Esta língua indígena, também conhecida como Língua Geral Amazônica, tem aproximadamente 14.000 falantes e está atualmente em risco de extinção (EBERHARD; SIMONS; FENNIG, 2023). Um dos fatores de risco para a extinção de línguas minoritárias é a indisponibilidade de ferramentas voltadas para o seu processamento computacional. Nesse sentido, o Nheengatagger figura como uma das poucas iniciativas voltadas para o processamento automático do nheengatu. Apesar de anotar corretamente a maioria das palavras de textos com a ortografia adotada por Navarro (2016), é necessário, ainda, que o etiquetador tenha a capacidade de resolver ambiguidades, isto é, atribuir a etiqueta correta a palavras que tenham mais de uma classe gramatical. Para preencher essa lacuna, este trabalho tem como objetivo a implementação de um desambiguador morfossintático baseado em regras. Dividimos nossa metodologia em duas etapas principais: a compilação de textos em nheengatu a partir das obras de Navarro (2016), Navarro e Ávila (2017), Casasnovas (2006) e Trevisan (2017) e a implementação da ferramenta. A compilação dos textos resultou em um corpus com 4176 sentenças. As etapas de implementação do desambiguador foram: (i) o levantamento de ambiguidades; (ii) a análise dos contextos das classes de palavras do nheengatu; (iii) a implementação do algoritmo; e (iv) a avaliação. Na etapa (i), identificamos 55 tipos de ambiguidades, com um total de 1047 ocorrências no corpus de desenvolvimento (NAVARRO, 2016). Na etapa (iv), o desambiguador alcançou as acurácias de 52% e 74% nos dois testes preliminares realizados com relação a um conjunto de 50 sentenças, resultado abaixo do estado da arte para esse tipo de ferramenta, que é 95%. A partir dos resultados desses testes, decidimos avaliar a performance da ferramenta a partir de contextos extraídos de sentenças com e sem ambiguidades resolvidas. Nos três testes realizados após os ajustes na ferramenta, obtivemos, respectivamente, de 80.9%, 60% e 57.5% de acurácia. Por outro lado, o desambiguador aumentou significativamente a taxa de acerto do Nheengatagger. Após a integração do módulo, o etiquetador alcançou os índices de 88.9%, 95.4% e 96.2% nos três testes.pt_BR
dc.subject.ptbrNheengatupt_BR
dc.subject.ptbrLíngua geral amazônicapt_BR
dc.subject.ptbrProcessamento de linguagem naturalpt_BR
dc.subject.ptbrEtiquetagem morfossintáticapt_BR
dc.subject.ptbrDesambiguaçãopt_BR
dc.subject.enAmazonian lingua francapt_BR
dc.subject.enNatural language processingpt_BR
dc.subject.enPart-of-speech taggingpt_BR
dc.subject.enDisambiguationpt_BR
dc.subject.cnpqCNPQ::LINGUISTICA, LETRAS E ARTESpt_BR
local.author.orcidhttps://orcid.org/0000-0003-3253-8684pt_BR
local.author.latteshttp://lattes.cnpq.br/5488072987977117pt_BR
local.advisor.orcidhttps://orcid.org/0000-0001-8148-6994pt_BR
local.advisor.latteshttp://lattes.cnpq.br/0669766218971125pt_BR
local.date.available2023-12-14-
Aparece nas coleções:PPGL - Dissertações defendidas na UFC

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
2023_dis_jlgurgel.pdf1,18 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.