Superando o estado da arte na etiquetagem morfossintática por meio de regras de pós-etiquetagem

Carvalho, Cid Ivan da Costa; Vasconcelos, Davis Macedo; Araripe, Leonel Figueiredo de Alencar

Use este identificador para citar ou linkar para este item: http://repositorio.ufc.br/handle/riufc/19867

Registro completo de metadados

Campo DC	Valor	Idioma
dc.contributor.author	Carvalho, Cid Ivan da Costa	-
dc.contributor.author	Vasconcelos, Davis Macedo	-
dc.contributor.author	Araripe, Leonel Figueiredo de Alencar	-
dc.date.accessioned	2016-09-29T14:04:03Z	-
dc.date.available	2016-09-29T14:04:03Z	-
dc.date.issued	2012	-
dc.identifier.citation	CARVALHO, Cid Ivan da Costa; VASCONCELOS, Davis Macedo; ARARIPE, Leonel Figueiredo de Alencar. Superando o estado da arte na etiquetagem morfossintática por meio de regras de pós-etiquetagem. In: ENCONTRO DE LINGUÍSTICA DE CORPUS,10., 2012, Belo Horizonte. Anais ... Belo Horizonte: Faculdade de Letras da UFMG, 2012. p. 122-134.	pt_BR
dc.identifier.isbn	978-85-7758-153-5	-
dc.identifier.uri	http://www.repositorio.ufc.br/handle/riufc/19867	-
dc.description.abstract	According to Kveton e Oliva (2002) tagging errors, when a corpus is used in order to statistically train a natural language processing system, constitute deviations from regularities which the system is expected to learn, leading to a false model of the analyzed language.These authors propose a correction method for these errors in a post-tagging process, taking into account the identification of impossible n-grams in the language to be modeled. In this paper we try to systematize the errors made by the Brazilian Portuguese morphosyntactic tagger Aelius, built through the NLTK (BIRD, KLEIN and LOPER, 2009). The departing point was the compilation of computer mediated communication corpus. This genre is characterized by an abundance of abbreviations, spelling variation and standard language deviations. After the Aelius annotation was done, we listed the errors made and classified them. This was the basis for a set of rules for automatic tagging correction. Our goal was to reach a 99% accuracy, above the state of the art 97 (GÜNGÖR,2010,p.207), and in order to reach that we implement a system of Python rules to correct the errors created by the tagging system.	pt_BR
dc.language.iso	pt_BR	pt_BR
dc.publisher	Faculdade de Letras da UFMG	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.subject	Aelius	pt_BR
dc.subject	Erros de etiquetagem	pt_BR
dc.subject	n-grama	pt_BR
dc.subject	Corpus	pt_BR
dc.title	Superando o estado da arte na etiquetagem morfossintática por meio de regras de pós-etiquetagem	pt_BR
dc.type	Artigo de Evento	pt_BR
dc.description.abstract-ptbr	Segundo Kvetone Oliva(2002),os erros de etiquetagem, quando se utiliza um corpus para treinar estatisticamente algum sistema de processamento automático da linguagem natural, constituem desvios das regularidades que se espera que o sistema aprenda, resultando num modelo falso da língua. Esses autores propõem um método de correção desses erros num processo de pós etiquetagem, levando em conta a detecção de n-gramas impossíveis na língua a ser modelada. Neste trabalho, procura-se sistematizar os erros cometidos pelo etiquetador morfossintático Aelius, construído por meio do NLTK (BIRD,KLEINeLOPER,2009). Como ponto de partida deste trabalho, compilamos um corpus de textos de comunicação mediada por computador, gênero que se caracteriza pela abundância de abreviaturas, grafias não padrão e desvios da norma culta. Após a anotação feita com o Aelius, levantamos os erros cometidos pela ferramenta e os classificamos. Com base nisso, elaboramos um primeiro conjunto de regras para correção automática da etiquetagem. Numa segunda etapa, tendo como meta chegar a 99% de acurácia, acima, portanto, do estado da arte de 97% (GÜNGÖR, 2010, p. 207), implementaremos regras em Python para correção dos erros cometidos por esse sistema de etiquetagem.	pt_BR
Aparece nas coleções:	DLE - Trabalhos apresentados em eventos

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
2012_eve_ciccarvalho.pdf		436,97 kB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Visualizar estatísticas