Use este identificador para citar ou linkar para este item: http://repositorio.ufc.br/handle/riufc/52899
Tipo: Artigo de Periódico
Título: Produtividade morfológica e tecnologia do texto: aspectos da construção de um transdutor lexical do português capaz de analisar neologismos
Título em inglês: Morphological productivity and text technology: Aspects of a lexical transducer of Portuguese capable of analyzing neologisms
Autor(es): Araripe, Leonel Figueiredo de Alencar
Palavras-chave: Linguística computacional;Linguística de Corpus;Transdução lexical;Derivação;Sufixação;Prefixação
Data do documento: 2009
Instituição/Editor/Publicador: Revista Calidoscópio
Citação: ARARIPE, Leonel Figueiredo de Alencar. Produtividade morfológica e tecnologia do texto: aspectos da construção de um transdutor lexical do português capaz de analisar neologismos. Revista Calidoscópio, São Leopoldo (RS), v. 7, n. 3, p. 199-220, set./dez. 2009.
Resumo: Neste artigo, apresentamos o LEXPOR, protótipo de um componente morfológico do português capaz de segmentar e classifi car os constituintes de derivados por meio da sufi xação de -ismo, -iano, -ês e -mente bem como de derivados desses por prefi xação com elementos de origem grega ou latina do tipo de neo-, pseudo-, anti- ou ultra-. Partimos do pressuposto de que uma representação das palavras complexas em termos de morfemas e categorias morfossintáticas não é só relevante na linguística de corpus, mas também em outras subáreas da tecnologia do texto, como a extração e a recuperação de informações. Este protótipo consiste de um transdutor lexical que modela o conjunto de palavras que se podem potencialmente construir usando esses afi xos derivacionais. Esse transdutor foi compilado a partir de uma descrição da morfotática e das regras de alternância morfofonológicas e ortográfi cas desse fragmento do léxico, formalizada nas linguagens de programação de estados fi nitos xfst e lexc. A principal característica desse transdutor é a capacidade de realizar análises de neologismos construídos a partir de bases não lexicalizadas, tomadas de empréstimo de outras línguas. Como a utilização de antropônimos estrangeiros é uma das causas principais da extrema produtividade dos afi xos derivacionais que focamos, o LEXPOR oferece uma arquitetura adequada para o desenvolvimento de um anotador automático de corpora do português capaz de preencher as lacunas de corpora como o CETENFolha e do analisador automático do projeto VISL. Em um como outro caso, as análises morfológicas de palavras complexas com os afi xos derivacionais referidos frequentemente são insufi cientemente detalhadas ou simplesmente incorretas.
Abstract: This paper presents LEXPOR, a prototype of a morphological component of Portuguese capable of segmenting and classifying the constituents of complex words resulting from suffi xation of -ismo, -iano, -ês and -mente as well as from prefi xing the words so derived with Greek or Latin prefi xes such as neo-, pseudo-, anti-, or ultra-. We assume that a representation of complex words in terms of morphemes and morphosyntactic categories plays an important role not only in corpus linguistics, but also in other subfi elds of text technology, such as Information Extraction and Information Retrieval. This prototype consists of a lexical transducer modeling the set of words that can potentially be built using these derivational affi xes. This transducer was compiled from a morphotactics and morphophonological description of this lexicon fragment as well as orthographic alternation rules formalized in the xfst and lexc fi nite-state programming languages. Its main feature is the ability to analyze neologisms built from non-lexicalized words borrowed from other languages. Since the use of foreign anthroponyms is one of the main causes of the extreme productivity of the derivational affi xes we focus on, LEXPOR provides an adequate architecture for developing an automatic tagger for Portuguese, capable of overcoming the shortcomings of the CETENFolha corpus and of the parser for the VISL project. In both these cases, morphological analyses of complex words formed with the derivational affi xes mentioned above are often either insuffi ciently detailed or simply incorrect.
URI: http://www.repositorio.ufc.br/handle/riufc/52899
ISSN: 2177-6202
Tipo de Acesso: Acesso Aberto
Aparece nas coleções:DLE - Artigos publicados em revistas científicas

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
2009_art_lfaararipe.pdf691,8 kBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.