Desambiguador morfossintático baseado em regras para o nheengatu

Gurgel, Juliana Lopes

Use este identificador para citar ou linkar para este item: http://repositorio.ufc.br/handle/riufc/75294

Registro completo de metadados

Campo DC	Valor	Idioma
dc.contributor.advisor	Araripe, Leonel Figueiredo de Alencar	-
dc.contributor.author	Gurgel, Juliana Lopes	-
dc.date.accessioned	2023-12-14T15:17:51Z	-
dc.date.available	2023-12-14T15:17:51Z	-
dc.date.issued	2023	-
dc.identifier.citation	GURGEL, Juliana Lopes. Desambiguador morfossintático baseado em regras para o nheengatu. 2023. 139 f. Dissertação (Mestrao em Linguística) - Programa de Pós-Graduação em Linguística, Centro de Humanidades, Universidade Federal do Ceará, Fortaleza, 2023.	pt_BR
dc.identifier.uri	http://repositorio.ufc.br/handle/riufc/75294	-
dc.description.abstract	In this study, we describe the implementation of a disambiguation module for Nheengatagger (ALENCAR, 2020), a part-of-speech tagger for Nheengatu. This indigenous language, also known as the Amazonian Lingua Franca, has an estimated number of 14,000 speakers and is currently at risk of extinction (EBERHARD; SIMONS; FENNIG, 2023). One of the risk factors for minority language extinction is the unavailability of low-resource language tools aimed at their computational processing. In the perspective of automatic text processing of Nheengatu, Nheengatagger is one of the few initiatives. Despite correctly labeling most of the words in texts in which the orthography adopted by Navarro (2016) was used, it is still necessary for the tagger to be able to resolve ambiguities, that is, to assign the correct label to words that have more than one part-of-speech. Thus, this work aims at implementing a rule-based disambiguation module. We divided our methodology into two main stages: the compilation of texts in Nheengatu from the works of Navarro (2016), Navarro and Ávila (2017), Casasnovas (2006) and Trevisan (2017) and the implementation of the module. The compilation of the texts resulted in a corpus with 4176 sentences. The stages of implementation were: (i) the identification of ambiguities; (ii) the analysis of the contexts of the parts-of-speech in Nheengatu; (iii) the implementation of the algorithm; and (iv) the evaluation. In stage (i), we identified 55 types of ambiguities, with a total of 1047 occurrences in the development corpus (NAVARRO, 2016). In stage (iv), the disambiguator achieved accuracies of 52% and 74% in the two preliminary tests carried out with a set of 50 sentences, a result below the state-of-the-art for this type of tool, which is 95%. Based on the results of the preliminary tests, we decided to evaluate the performance of the tool using contexts extracted from sentences with and without ambiguities. In the three tests carried out after adjustments to the tool, we obtained accuracies of 80.9%, 60% and 57.5%, respectively, a result still below the state-of-the-art. On the other hand, the disambiguator significantly increased Nheengatagger's hit rate. After the integration of the module, the POS tagger achieved rates of 88.9%, 95.4% and 96.2% in the three tests, respectively.	pt_BR
dc.language.iso	pt_BR	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.title	Desambiguador morfossintático baseado em regras para o nheengatu	pt_BR
dc.type	Dissertação	pt_BR
dc.description.abstract-ptbr	Neste trabalho, descrevemos a implementação do módulo desambiguador do Nheengatagger (ALENCAR, 2020), um etiquetador morfossintático para o nheengatu. Esta língua indígena, também conhecida como Língua Geral Amazônica, tem aproximadamente 14.000 falantes e está atualmente em risco de extinção (EBERHARD; SIMONS; FENNIG, 2023). Um dos fatores de risco para a extinção de línguas minoritárias é a indisponibilidade de ferramentas voltadas para o seu processamento computacional. Nesse sentido, o Nheengatagger figura como uma das poucas iniciativas voltadas para o processamento automático do nheengatu. Apesar de anotar corretamente a maioria das palavras de textos com a ortografia adotada por Navarro (2016), é necessário, ainda, que o etiquetador tenha a capacidade de resolver ambiguidades, isto é, atribuir a etiqueta correta a palavras que tenham mais de uma classe gramatical. Para preencher essa lacuna, este trabalho tem como objetivo a implementação de um desambiguador morfossintático baseado em regras. Dividimos nossa metodologia em duas etapas principais: a compilação de textos em nheengatu a partir das obras de Navarro (2016), Navarro e Ávila (2017), Casasnovas (2006) e Trevisan (2017) e a implementação da ferramenta. A compilação dos textos resultou em um corpus com 4176 sentenças. As etapas de implementação do desambiguador foram: (i) o levantamento de ambiguidades; (ii) a análise dos contextos das classes de palavras do nheengatu; (iii) a implementação do algoritmo; e (iv) a avaliação. Na etapa (i), identificamos 55 tipos de ambiguidades, com um total de 1047 ocorrências no corpus de desenvolvimento (NAVARRO, 2016). Na etapa (iv), o desambiguador alcançou as acurácias de 52% e 74% nos dois testes preliminares realizados com relação a um conjunto de 50 sentenças, resultado abaixo do estado da arte para esse tipo de ferramenta, que é 95%. A partir dos resultados desses testes, decidimos avaliar a performance da ferramenta a partir de contextos extraídos de sentenças com e sem ambiguidades resolvidas. Nos três testes realizados após os ajustes na ferramenta, obtivemos, respectivamente, de 80.9%, 60% e 57.5% de acurácia. Por outro lado, o desambiguador aumentou significativamente a taxa de acerto do Nheengatagger. Após a integração do módulo, o etiquetador alcançou os índices de 88.9%, 95.4% e 96.2% nos três testes.	pt_BR
dc.subject.ptbr	Nheengatu	pt_BR
dc.subject.ptbr	Língua geral amazônica	pt_BR
dc.subject.ptbr	Processamento de linguagem natural	pt_BR
dc.subject.ptbr	Etiquetagem morfossintática	pt_BR
dc.subject.ptbr	Desambiguação	pt_BR
dc.subject.en	Amazonian lingua franca	pt_BR
dc.subject.en	Natural language processing	pt_BR
dc.subject.en	Part-of-speech tagging	pt_BR
dc.subject.en	Disambiguation	pt_BR
dc.subject.cnpq	CNPQ::LINGUISTICA, LETRAS E ARTES	pt_BR
local.author.orcid	https://orcid.org/0000-0003-3253-8684	pt_BR
local.author.lattes	http://lattes.cnpq.br/5488072987977117	pt_BR
local.advisor.orcid	https://orcid.org/0000-0001-8148-6994	pt_BR
local.advisor.lattes	http://lattes.cnpq.br/0669766218971125	pt_BR
local.date.available	2023-12-14	-
Aparece nas coleções:	PPGL - Dissertações defendidas na UFC

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
2023_dis_jlgurgel.pdf		1,18 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Visualizar estatísticas