Por favor, use este identificador para citar o enlazar este ítem: http://repositorio.ufc.br/handle/riufc/75294
Tipo: Dissertação
Título : Desambiguador morfossintático baseado em regras para o nheengatu
Autor : Gurgel, Juliana Lopes
Tutor: Araripe, Leonel Figueiredo de Alencar
Palabras clave en portugués brasileño: Nheengatu;Língua geral amazônica;Processamento de linguagem natural;Etiquetagem morfossintática;Desambiguação
Palabras clave en inglés: Amazonian lingua franca;Natural language processing;Part-of-speech tagging;Disambiguation
Áreas de Conocimiento - CNPq: CNPQ::LINGUISTICA, LETRAS E ARTES
Fecha de publicación : 2023
Citación : GURGEL, Juliana Lopes. Desambiguador morfossintático baseado em regras para o nheengatu. 2023. 139 f. Dissertação (Mestrao em Linguística) - Programa de Pós-Graduação em Linguística, Centro de Humanidades, Universidade Federal do Ceará, Fortaleza, 2023.
Resumen en portugués brasileño: Neste trabalho, descrevemos a implementação do módulo desambiguador do Nheengatagger (ALENCAR, 2020), um etiquetador morfossintático para o nheengatu. Esta língua indígena, também conhecida como Língua Geral Amazônica, tem aproximadamente 14.000 falantes e está atualmente em risco de extinção (EBERHARD; SIMONS; FENNIG, 2023). Um dos fatores de risco para a extinção de línguas minoritárias é a indisponibilidade de ferramentas voltadas para o seu processamento computacional. Nesse sentido, o Nheengatagger figura como uma das poucas iniciativas voltadas para o processamento automático do nheengatu. Apesar de anotar corretamente a maioria das palavras de textos com a ortografia adotada por Navarro (2016), é necessário, ainda, que o etiquetador tenha a capacidade de resolver ambiguidades, isto é, atribuir a etiqueta correta a palavras que tenham mais de uma classe gramatical. Para preencher essa lacuna, este trabalho tem como objetivo a implementação de um desambiguador morfossintático baseado em regras. Dividimos nossa metodologia em duas etapas principais: a compilação de textos em nheengatu a partir das obras de Navarro (2016), Navarro e Ávila (2017), Casasnovas (2006) e Trevisan (2017) e a implementação da ferramenta. A compilação dos textos resultou em um corpus com 4176 sentenças. As etapas de implementação do desambiguador foram: (i) o levantamento de ambiguidades; (ii) a análise dos contextos das classes de palavras do nheengatu; (iii) a implementação do algoritmo; e (iv) a avaliação. Na etapa (i), identificamos 55 tipos de ambiguidades, com um total de 1047 ocorrências no corpus de desenvolvimento (NAVARRO, 2016). Na etapa (iv), o desambiguador alcançou as acurácias de 52% e 74% nos dois testes preliminares realizados com relação a um conjunto de 50 sentenças, resultado abaixo do estado da arte para esse tipo de ferramenta, que é 95%. A partir dos resultados desses testes, decidimos avaliar a performance da ferramenta a partir de contextos extraídos de sentenças com e sem ambiguidades resolvidas. Nos três testes realizados após os ajustes na ferramenta, obtivemos, respectivamente, de 80.9%, 60% e 57.5% de acurácia. Por outro lado, o desambiguador aumentou significativamente a taxa de acerto do Nheengatagger. Após a integração do módulo, o etiquetador alcançou os índices de 88.9%, 95.4% e 96.2% nos três testes.
Abstract: In this study, we describe the implementation of a disambiguation module for Nheengatagger (ALENCAR, 2020), a part-of-speech tagger for Nheengatu. This indigenous language, also known as the Amazonian Lingua Franca, has an estimated number of 14,000 speakers and is currently at risk of extinction (EBERHARD; SIMONS; FENNIG, 2023). One of the risk factors for minority language extinction is the unavailability of low-resource language tools aimed at their computational processing. In the perspective of automatic text processing of Nheengatu, Nheengatagger is one of the few initiatives. Despite correctly labeling most of the words in texts in which the orthography adopted by Navarro (2016) was used, it is still necessary for the tagger to be able to resolve ambiguities, that is, to assign the correct label to words that have more than one part-of-speech. Thus, this work aims at implementing a rule-based disambiguation module. We divided our methodology into two main stages: the compilation of texts in Nheengatu from the works of Navarro (2016), Navarro and Ávila (2017), Casasnovas (2006) and Trevisan (2017) and the implementation of the module. The compilation of the texts resulted in a corpus with 4176 sentences. The stages of implementation were: (i) the identification of ambiguities; (ii) the analysis of the contexts of the parts-of-speech in Nheengatu; (iii) the implementation of the algorithm; and (iv) the evaluation. In stage (i), we identified 55 types of ambiguities, with a total of 1047 occurrences in the development corpus (NAVARRO, 2016). In stage (iv), the disambiguator achieved accuracies of 52% and 74% in the two preliminary tests carried out with a set of 50 sentences, a result below the state-of-the-art for this type of tool, which is 95%. Based on the results of the preliminary tests, we decided to evaluate the performance of the tool using contexts extracted from sentences with and without ambiguities. In the three tests carried out after adjustments to the tool, we obtained accuracies of 80.9%, 60% and 57.5%, respectively, a result still below the state-of-the-art. On the other hand, the disambiguator significantly increased Nheengatagger's hit rate. After the integration of the module, the POS tagger achieved rates of 88.9%, 95.4% and 96.2% in the three tests, respectively.
URI : http://repositorio.ufc.br/handle/riufc/75294
ORCID del autor: https://orcid.org/0000-0003-3253-8684
Lattes del autor: http://lattes.cnpq.br/5488072987977117
ORCID del tutor: https://orcid.org/0000-0001-8148-6994
Lattes del tutor: http://lattes.cnpq.br/0669766218971125
Derechos de acceso: Acesso Aberto
Aparece en las colecciones: PPGL - Dissertações defendidas na UFC

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
2023_dis_jlgurgel.pdf1,18 MBAdobe PDFVisualizar/Abrir


Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.