Please use this identifier to cite or link to this item: http://repositorio.ufc.br/handle/riufc/75294
Type: Dissertação
Title: Desambiguador morfossintático baseado em regras para o nheengatu
Authors: Gurgel, Juliana Lopes
Advisor: Araripe, Leonel Figueiredo de Alencar
Keywords in Brazilian Portuguese : Nheengatu;Língua geral amazônica;Processamento de linguagem natural;Etiquetagem morfossintática;Desambiguação
Keywords in English : Amazonian lingua franca;Natural language processing;Part-of-speech tagging;Disambiguation
Knowledge Areas - CNPq: CNPQ::LINGUISTICA, LETRAS E ARTES
Issue Date: 2023
Citation: GURGEL, Juliana Lopes. Desambiguador morfossintático baseado em regras para o nheengatu. 2023. 139 f. Dissertação (Mestrao em Linguística) - Programa de Pós-Graduação em Linguística, Centro de Humanidades, Universidade Federal do Ceará, Fortaleza, 2023.
Abstract in Brazilian Portuguese: Neste trabalho, descrevemos a implementação do módulo desambiguador do Nheengatagger (ALENCAR, 2020), um etiquetador morfossintático para o nheengatu. Esta língua indígena, também conhecida como Língua Geral Amazônica, tem aproximadamente 14.000 falantes e está atualmente em risco de extinção (EBERHARD; SIMONS; FENNIG, 2023). Um dos fatores de risco para a extinção de línguas minoritárias é a indisponibilidade de ferramentas voltadas para o seu processamento computacional. Nesse sentido, o Nheengatagger figura como uma das poucas iniciativas voltadas para o processamento automático do nheengatu. Apesar de anotar corretamente a maioria das palavras de textos com a ortografia adotada por Navarro (2016), é necessário, ainda, que o etiquetador tenha a capacidade de resolver ambiguidades, isto é, atribuir a etiqueta correta a palavras que tenham mais de uma classe gramatical. Para preencher essa lacuna, este trabalho tem como objetivo a implementação de um desambiguador morfossintático baseado em regras. Dividimos nossa metodologia em duas etapas principais: a compilação de textos em nheengatu a partir das obras de Navarro (2016), Navarro e Ávila (2017), Casasnovas (2006) e Trevisan (2017) e a implementação da ferramenta. A compilação dos textos resultou em um corpus com 4176 sentenças. As etapas de implementação do desambiguador foram: (i) o levantamento de ambiguidades; (ii) a análise dos contextos das classes de palavras do nheengatu; (iii) a implementação do algoritmo; e (iv) a avaliação. Na etapa (i), identificamos 55 tipos de ambiguidades, com um total de 1047 ocorrências no corpus de desenvolvimento (NAVARRO, 2016). Na etapa (iv), o desambiguador alcançou as acurácias de 52% e 74% nos dois testes preliminares realizados com relação a um conjunto de 50 sentenças, resultado abaixo do estado da arte para esse tipo de ferramenta, que é 95%. A partir dos resultados desses testes, decidimos avaliar a performance da ferramenta a partir de contextos extraídos de sentenças com e sem ambiguidades resolvidas. Nos três testes realizados após os ajustes na ferramenta, obtivemos, respectivamente, de 80.9%, 60% e 57.5% de acurácia. Por outro lado, o desambiguador aumentou significativamente a taxa de acerto do Nheengatagger. Após a integração do módulo, o etiquetador alcançou os índices de 88.9%, 95.4% e 96.2% nos três testes.
Abstract: In this study, we describe the implementation of a disambiguation module for Nheengatagger (ALENCAR, 2020), a part-of-speech tagger for Nheengatu. This indigenous language, also known as the Amazonian Lingua Franca, has an estimated number of 14,000 speakers and is currently at risk of extinction (EBERHARD; SIMONS; FENNIG, 2023). One of the risk factors for minority language extinction is the unavailability of low-resource language tools aimed at their computational processing. In the perspective of automatic text processing of Nheengatu, Nheengatagger is one of the few initiatives. Despite correctly labeling most of the words in texts in which the orthography adopted by Navarro (2016) was used, it is still necessary for the tagger to be able to resolve ambiguities, that is, to assign the correct label to words that have more than one part-of-speech. Thus, this work aims at implementing a rule-based disambiguation module. We divided our methodology into two main stages: the compilation of texts in Nheengatu from the works of Navarro (2016), Navarro and Ávila (2017), Casasnovas (2006) and Trevisan (2017) and the implementation of the module. The compilation of the texts resulted in a corpus with 4176 sentences. The stages of implementation were: (i) the identification of ambiguities; (ii) the analysis of the contexts of the parts-of-speech in Nheengatu; (iii) the implementation of the algorithm; and (iv) the evaluation. In stage (i), we identified 55 types of ambiguities, with a total of 1047 occurrences in the development corpus (NAVARRO, 2016). In stage (iv), the disambiguator achieved accuracies of 52% and 74% in the two preliminary tests carried out with a set of 50 sentences, a result below the state-of-the-art for this type of tool, which is 95%. Based on the results of the preliminary tests, we decided to evaluate the performance of the tool using contexts extracted from sentences with and without ambiguities. In the three tests carried out after adjustments to the tool, we obtained accuracies of 80.9%, 60% and 57.5%, respectively, a result still below the state-of-the-art. On the other hand, the disambiguator significantly increased Nheengatagger's hit rate. After the integration of the module, the POS tagger achieved rates of 88.9%, 95.4% and 96.2% in the three tests, respectively.
URI: http://repositorio.ufc.br/handle/riufc/75294
Author's ORCID: https://orcid.org/0000-0003-3253-8684
Author's Lattes: http://lattes.cnpq.br/5488072987977117
Advisor's ORCID: https://orcid.org/0000-0001-8148-6994
Advisor's Lattes: http://lattes.cnpq.br/0669766218971125
Access Rights: Acesso Aberto
Appears in Collections:PPGL - Dissertações defendidas na UFC

Files in This Item:
File Description SizeFormat 
2023_dis_jlgurgel.pdf1,18 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.