Compilação, anotação e análise linguístico-computacional de um corpus de textos literários dos séculos XIX e XX: corpus Coelho Neto

Martins, Francimary Macedo

Use este identificador para citar ou linkar para este item: http://repositorio.ufc.br/handle/riufc/12576

Registro completo de metadados

Campo DC	Valor	Idioma
dc.contributor.advisor	Araripe, Leonel Figueiredo de Alencar	-
dc.contributor.author	Martins, Francimary Macedo	-
dc.date.accessioned	2015-06-05T11:08:56Z	-
dc.date.available	2015-06-05T11:08:56Z	-
dc.date.issued	2014	-
dc.identifier.citation	Martins, F. M.; Araripe, L. F. A. (2014)	pt_BR
dc.identifier.uri	http://www.repositorio.ufc.br/handle/riufc/12576	-
dc.description	MARTINS, Francimary Macedo. Compilação, anotação e análise linguístico-computacional de um corpus de textos literários dos séculos XIX e XX: corpus Coelho Neto. 2014. 210f. – Tese (Doutorado) – Universidade Federal do Ceará, Departamento de Letras Vernáculas, Programa de Pós-graduação em Linguística, Fortaleza (CE), 2014.	pt_BR
dc.description.abstract	This thesis is the compilation, morphosyntactic annotation and linguistic and computational analysis of a corpus of literary texts of 19th and 20th centuries: Corpus Coelho Netto (CCN), containing texts of the novels A Conquista and Turbilhão and short stories of the book Sertão. The work is in the Corpus Linguistics and Computational Linguistics interface (BERBER SARDINHA, 2000, 2003, 2004, 2005, 2009; BERBER SARDINHA; ALMEIDA, 2008; OLIVEIRA, 2009; BIDERMAN, 1998, 2001; ALUÍSIO; ALMEIDA, 2006; SHEPHERD, 2012; MACENERY AND WILSON, 2001; LEECH, 2004; ALVES; TAGNIN, 2012; ALENCAR, 2009, 2010a, 2010b, 2011a, 2011b, 2013a, 2013b). The CCN contains 53.080 (fifty-three thousand and eighty) tokens. The compilation consists of the steps selection, collection off texts and handling; in which cleaning, editing and updating of texts (ALUÍSIO; ALMEIDA, 2006), and then be submitted to the morphosyntactic annotation and linguistic-computational analysis, with the goal of obtaining data to show whether or not the "excessive" use of adjectives, verbs and adverbs in “–mente”, demonstrating the lexical diversity in Coelho Netto´s texts, noting if what the modernist critics said about the writer was correct. The annotation was performed by automatic tagger Aelius, AeliusHunPos model, free software in Python that uses the Natural Language Toolkit – NLTK library (BIRD; KLEIN; LOPER, 2009), in the pre-processing of texts, in the construction of morphosyntactic tagger and the automatic annotation of corpora with the help of human review (ALENCAR, 2010a, 2013a, 2013b), and it was trained in the Historical Corpus of Tycho Brahe Portuguese (CHPTB). The compilation and annotation CCN involves other actions such as revaluation the accuracy of this tagger in literary texts. The search results indicated that: AeliusHunpos demonstrated better performance than other texts already noted (97.9 %); AeliusHunPos model showed a far beyond performance by annotating corpora with AeliusMaxEnt model; and that, after selection and manual correction of 10% annotated corpora and generated gold standard files, it is suggested an improvement of the approximate 3% of errors by the tagger, in order to increase its accuracy. Regarding the analyzes performed with the CCN, it was found that: lexical diversity - about verbs, adjectives and adverbs in “–mente” considered exaggerated by critics to Coelho Netto unfounded, because his texts are rich, but when compared to the texts by Aluísio Azevedo and Camilo Castelo Branco, comparison of corpus, present vocabulary richness similar to CCN, as exposed in the results.	pt_BR
dc.language.iso	pt_BR	pt_BR
dc.publisher	www.teses.ufc.br	pt_BR
dc.subject	Corpus Linguistics	pt_BR
dc.subject	Computational Linguistics	pt_BR
dc.subject	Linguística – Processamento de dados	pt_BR
dc.subject	Língua portuguesa – Brasil – Morfologia	pt_BR
dc.subject	Língua portuguesa – Brasil – Sintaxe	pt_BR
dc.subject	Coelho Netto,1864-1934 – Crítica e interpretação	pt_BR
dc.title	Compilação, anotação e análise linguístico-computacional de um corpus de textos literários dos séculos XIX e XX: corpus Coelho Neto	pt_BR
dc.type	Tese	pt_BR
dc.description.abstract-ptbr	Esta tese é a compilação, anotação morfossintática e análise linguístico-computacional de um corpus de textos literários dos séc. XIX e XX: o Corpus Coelho Netto (CCN), contendo textos dos romances A Conquista e Turbilhão e contos do livro Sertão. O trabalho está na interface da Linguística de Corpus e da Linguística Computacional (BERBER SARDINHA, 2000, 2003, 2004, 2005, 2009; BERBER SARDINHA; ALMEIDA, 2008; OLIVEIRA, 2009; BIDERMAN, 1998, 2001; ALUÍSIO; ALMEIDA, 2006; SHEPHERD, 2012; MACENERY E WILSON, 2001; LEECH, 2004; ALVES; TAGNIN, 2012; ALENCAR, 2009, 2010a, 2010b, 2011a, 2011b, 2013a, 2013b). O CCN contém 53.080 (cinquenta e três mil e oitenta) tokens (pontuação e palavras). A compilação consiste nas etapas de seleção, coleta de textos e manipulação; nesta são realizadas a limpeza, edição e atualização dos textos (ALUÍSIO; ALMEIDA, 2006), para depois ser submetido à anotação morfossintática e análise linguístico-computacional, com o objetivo de obter dados que comprovem ou não o uso “excessivo” de adjetivos, de verbos e de advérbios em –mente, demonstrando a diversidade lexical nos textos de Coelho Netto, constatando se o que a crítica modernista dizia a respeito do escritor era procedente. A anotação morfossintática foi realizada pelo etiquetador automático Aelius, modelo AeliusHunPos, um software livre em Python que utiliza a biblioteca Natural Language Toolkit – NLTK (BIRD; KLEIN; LOPER, 2009), no pré-processamento de textos, na construção de etiquetador morfossintático e na anotação de corpora com auxílio de revisão humana (ALENCAR, 2010a, 2013a, 2013b), e que foi treinado no Corpus Histórico do Português Tycho Brahe (CHPTB). A compilação e anotação do CCN envolve outras ações como a reavaliação da acurácia desse etiquetador em textos literários. Os resultados da pesquisa revelaram que: o AeliusHunpos ao anotar os textos do CCN demonstrou maior acurácia que em outros textos já anotados, de 97,9%; que o modelo AeliusHunPos mostrou um desempenho muito além ao anotar os corpora que com o modelo AeliusMaxEnt; e que, após a seleção e correção manual dos 10% dos corpora anotados e gerados arquivos padrão gold, sugerimos um melhoramento dos aproximados 3% de erros cometidos pelo etiquetador, visando o aumento de sua acurácia. Quanto às analises realizadas com os dados obtidos no CCN constatamos que: a diversidade lexical, especificamente quanto a verbos, adjetivos e advérbios em –mente, declarada como exagerada pela crítica à Coelho Netto não procede, pois seus textos são ricos, mas quando comparados aos textos de Aluísio Azevedo e Camilo Castelo Branco, o Corpus de Comparação, apresentam riqueza vocabular similar ao CCN, como expostos nos resultados.	pt_BR
dc.title.en	Compilation, annotation and linguistic and computational analysis of corpus Coelho Netto (CCN), a corpus of literary texts of 19th and 20th centuries	pt_BR
Aparece nas coleções:	PPGL - Teses defendidas na UFC

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
2014_tese_fmmartins.pdf		3,05 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Visualizar estatísticas