Expansão do MorphoBr através da modelagem computacional de processos de formação de palavras em português

Silva, Hélio Leonam Barroso

Please use this identifier to cite or link to this item: http://repositorio.ufc.br/handle/riufc/47136

Type:	Dissertação
Title:	Expansão do MorphoBr através da modelagem computacional de processos de formação de palavras em português
Authors:	Silva, Hélio Leonam Barroso
Advisor:	Araripe, Leonel Figueiredo de Alencar
Keywords:	Morfologia de estados finitos;Dicionário eletrônico;Sufixação;Processamento de Linguagem Natural
Issue Date:	2019
Citation:	SILVA, Hélio Leonam Barroso. Expansão do MorphoBr através da modelagem computacional de processos de formação de palavras em português. 2019. 66f - Dissertação (Mestrado) - Universidade Federal do Ceará, Programa de Pós-graduação em Linguística, Fortaleza (CE), 2019.
Abstract in Brazilian Portuguese:	Neste trabalho, modelamos computacionalmente quatro processos de formação de palavras (PFP) do português usando a morfologia de estados finitos a fim de gerar novas entradas lexicais automaticamente, contribuindo com o grupo de pesquisa Computação e Linguagem Natural no desenvolvimento de recursos para o Processamento de Linguagem Natural (PLN) para a língua portuguesa. Dentre os numerosos desafios com que um sistema de PLN deve lidar ao processar textos em língua natural, vários deles têm a ver com o domínio lexical, que dialoga direta ou indiretamente com todos os outros níveis do sistema. Ter em mãos recursos lexicais bem estruturados e abrangentes influencia decisivamente na eficiência do sistema de PLN. O melhor recurso de que temos notícia é o MorphoBr (ALENCAR; RADEMAKER; CUCONATO, 2018), construído a partir da combinação, revisão e expansão de recursos análogos livremente disponíveis para o português, derivados, em sua maior parte, do LabelLex (ELEUTÉRIO et al., 1995) e Unitex-PB (MUNIZ, 2004). Essa expansão ocorreu gerando-se automaticamente, por exemplo, formas do diminutivo de adjetivos e substantivos e formas flexionadas faltantes de vários verbos. Propomos a geração automática de entradas lexicais aproveitando as já existentes como bases de processos de formação de palavras por sufixação a fim de retroalimentar o conjunto de dados do MorphoBr. Os quatro PFPs selecionados foram os correspondentes aos sufixos -vel, -idade, -izar e -mente. Como apenas as classes morfossintáticas da base e do derivado não são suficientes para atestar a boa formação da palavra, levamos em conta as diversas restrições de cada PFP selecionado documentadas em Alves (2004), Basilio (1980, 1987, 1990, 2017), Cavalcante (1996), Maroneze (2005, 2011), Rocha (2008) e Villalva e Silvestre (2014). Em termos de quantidade relativa de lemas, alcançamos um aumento de 8,5% com ‑vel, de 9,5% com -idade, 9,8% com -izar e 12,9% com -mente. Em termos de quantidade absoluta de novas formas flexionadas, geramos 45.564 formas adjetivais, 16.962 advérbios, 24.978 formas substantivais e 833.560 formas verbais. Como uma primeira etapa para a modelagem dos PFPs relativos aos sufixos - ção e -mento, analisamos a concorrência dos dois sufixos por bases verbais de primeira conjugação.
Abstract:	In this work, we computationally modeled four word-formation processes (WFP) of Portuguese using finite-state morphology in order to automatically generate new lexical entries contributing with the research group Computação e Linguagem Natural on the development of resources for the Natural Language Processing (NLP) for the Portuguese language. Among the numerous challenges a PLN system must deal with by processing texts in natural language, plenty of them has to do with the lexical aspect, which interacts directly and indirectly with all the other levels of the system. Having well-structured and comprehensive lexical resources in hand decisively influences the efficiency of the PLN system. The best resource we are aware of is MorphoBr (ALENCAR; RADEMAKER; CUCONATO, 2018), built from the combination, revision and expansion of freely available analogous resources of Portuguese derived mostly from Label-Lex (ELEUTÉRIO et al., 1995) and Unitex-PB (MUNIZ, 2004). This expansion occurred by automatically generating, for instance, diminutive forms of adjectives and nouns and missing inflected forms of verbs. We propose the automatic generation of lexical entries by taking advantage of the existing ones as base forms for the word-formation processes by suffixation in order to retrofeed MorphoBr’s data set. The four WFP selected were the equivalent to the suffixes -vel, -idade, -izar e - mente. As the morphosyntactic classes of the base and the product only are not enough to ascertain the word’s well-formedness, we take into account the various restrictions of every selected WFP documented in Alves (2004), Basilio (1980, 1987, 1990, 2017), Cavalcante (1996), Maroneze (2005, 2011), Rocha (2008) and Villalva & Silvestre (2014). In terms of relative lemma quantity, we reached an increase of 8,5% with -vel, of 9,5% with -idade, 9,8% with ‑izar and 12,9% with -mente. In terms of absolute inflectional forms quantity, we have generated 45,564 adjective forms, 16,962 adverbs, 24,978 noun forms, and 833,560 verb forms. As a first step towards the modeling of the WFP related to the suffixes ‑ção and ‑mento, we analyzed the competition between both suffixes for first conjugation verb bases.
URI:	http://www.repositorio.ufc.br/handle/riufc/47136
Appears in Collections:	PPGL - Dissertações defendidas na UFC

Files in This Item:

File	Description	Size	Format
2019_dis_hlbsilva.pdf		857,68 kB	Adobe PDF	View/Open

Show full item record