Please use this identifier to cite or link to this item: http://www.repositorio.ufc.br/handle/riufc/8195
Title in Portuguese: Astrolábio: um corpus de redações escolares do Ceará anotado multidimensionalmente conforme a TEI P5
Title: Astrolábio: a corpus of school writings of Ceará multi-dimensionally annotated according to TEI P5
Author: Andrade, Katiuscia de Moraes
Advisor(s): Araripe, Leonel Figueiredo de Alencar
Keywords: Computacional linguistics
Corpus linguistics
Linguística de corpus
Língua portuguesa – Composição e exercícios
Língua portuguesa – Correção de textos
Prosa escolar brasileira – Ceará
Issue Date: 2013
Publisher: www.teses.ufc.br
Citation: Andrade, K. M.; Araripe, L. F. A. (2013)
Abstract in Portuguese: Astrolábio é um corpus compilado, anotado multidimensionalmente e disponibilizado eletronicamente sob a licença Creative Commons Attribution-NonCommercial 3.0 Unported. Trata-se de um corpus, em Português brasileiro, que emprega avançadas tecnologias para o processamento de texto e anotação de corpora. Astrolábio possui anotação multidimensional baseada na codificação TEI P5, que prescreve o uso metalinguagem XML. Com o uso dessa codificação, preservaram-se características essenciais da estrutura e do conteúdo dos documentos anotados, tornando a transcrição o mais fiel possível ao original. Por meio do emprego da tag , foi possível reunir, em um mesmo arquivo, fenômenos de variação linguística, erros ortográficos e de pontuação, bem como as respectivas formas corrigidas e normalizadas, além de possibilitar a visualização de termos que foram acrescidos ou suprimidos. Para a integração automática dos vários níveis de anotação, utilizou-se o Astro, um software que utiliza diversos módulos em Python para o Processamento da Linguagem Natural (PLN), como o Aelius e o Enchant. Na etiquetagem morfossintática, utilizou-se o pacote Aelius, que, por sua vez, recorre à biblioteca Natural Language Toolkit (NLTK). O etiquetador escolhido, dentro do Aelius, foi o AeliusHunposMacMorpho, criado a partir do etiquetador Hunpos, treinado no corpus de textos jornalísticos MAC-Morpho. Efetivou-se a correção ortográfica com o Enchant, uma vasta biblioteca com API (Application Programming Interface) em linguagem C e C++. Os textos que compõem esse corpus foram produzidos durante as oficinas de produção textual da segunda edição do projeto Rota das Especiarias, realizadas no primeiro semestre de 2012, com alunos de escolas públicas das cidades cearenses de Camocim, Barroquinha e Jijoca de Jericoacoara. Até o presente momento da construção do Astrolábio, encontram-se concluídas as etapas de seleção, escanerização, compilação e a primeira fase de anotação automática dos textos por meio do Astro. O corpus Astrolábio já se encontra parcialmente disponível no sítio eletrônico Rota das Especiarias (www.rotadasespeciarias.art.br). Em breve, será submetido ao repositório eletrônico University of Oxford Text Archive (OTA). Pelo que se observou do panorama de corpora do Português, inexiste um corpus, em Português Brasileiro, com esse nível de anotação.
Abstract: Astrolábio is a compiled corpus, with multidimensional annotation, and shared under Creative Commons Attribution-NonCommercial 3.0 Unported licence. It is a corpus, in Brazilian Portuguese, that uses advanced technologies to text processing and corpora annotation. Astrolábio has multidimensional annotation based on TEI P5 guidelines, that prescribes XML metalanguage. Through these guidelines, essential structures from the annotated documents were preserved, keeping the transcription as reliable as possible to the original. By using tag , it enabled keep, in the same archive, linguistic variation phenomena, orthographic and punctuation errors, as the respectives corrected and normalized forms, and also makes possible the visualization of added and deleted terms. To automatize the integration of many levels of annotation, Astro was used, it is a software that works with several Python modules to Natural Language Processing (NLP), including Aelius and Enchant. To POS tagging, Aelius, a package that uses Natural Language Toolkit (NLTK) libraries, was utilized. From Aelius, AeliusHunPosMacMorpho was chosen, it is a tagger based on HunPos and trained by MAC-Morpho, a corpus composed of journalistic texts. The 9spell checking was made by Enchant, a large library with API (Application Programming Interface) in C and C++ languages. The tagger chosen from inside training corpus MacMorpho,. Astrolábio's texts were produced during text production workshops from the second edition of Rota das Especiarias project, realized on first semester of 2012, with public school students from Camocim, Barroquinha e Jijoca de Jericoacoara, cities located in Ceará. Until this moment of Astrolábio's creation, concluded stages are texts selection, compilation and the first step of automatic annotation by Astro. Astrolábio corpus is already partially avaiable at Rota das Especiarias' website (www.rotadasespeciarias.art.br). Soon, the corpus will be submitted to University of Oxford Text Archive (OTA). As we observed from corpora scene of Portuguese, there's no corpus, in Brazilian Portuguese, with this level of annotation.
Description: ANDRADE, Katiuscia de Moraes. Astrolábio: um corpus de redações escolares do Ceará anotado multidimensionalmente conforme a TEI P5. 2013. 135f. – Dissertação (Mestrado) – Universidade Federal do Ceará, Departamento de Letras Vernáculas, Programa de Pós-graduação em Linguística, Fortaleza (CE), 2013.
URI: http://www.repositorio.ufc.br/handle/riufc/8195
metadata.dc.type: Dissertação
Appears in Collections:PPGL - Dissertações defendidas na UFC

Files in This Item:
File Description SizeFormat 
2013_dis_kmandrade.pdf3,61 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.