Use este identificador para citar ou linkar para este item: http://repositorio.ufc.br/handle/riufc/8195
Registro completo de metadados
Campo DCValorIdioma
dc.contributor.advisorAraripe, Leonel Figueiredo de Alencar-
dc.contributor.authorAndrade, Katiuscia de Moraes-
dc.date.accessioned2014-06-04T18:32:21Z-
dc.date.available2014-06-04T18:32:21Z-
dc.date.issued2013-
dc.identifier.citationAndrade, K. M.; Araripe, L. F. A. (2013)pt_BR
dc.identifier.urihttp://www.repositorio.ufc.br/handle/riufc/8195-
dc.descriptionANDRADE, Katiuscia de Moraes. Astrolábio: um corpus de redações escolares do Ceará anotado multidimensionalmente conforme a TEI P5. 2013. 135f. – Dissertação (Mestrado) – Universidade Federal do Ceará, Departamento de Letras Vernáculas, Programa de Pós-graduação em Linguística, Fortaleza (CE), 2013.pt_BR
dc.description.abstractAstrolábio is a compiled corpus, with multidimensional annotation, and shared under Creative Commons Attribution-NonCommercial 3.0 Unported licence. It is a corpus, in Brazilian Portuguese, that uses advanced technologies to text processing and corpora annotation. Astrolábio has multidimensional annotation based on TEI P5 guidelines, that prescribes XML metalanguage. Through these guidelines, essential structures from the annotated documents were preserved, keeping the transcription as reliable as possible to the original. By using tag , it enabled keep, in the same archive, linguistic variation phenomena, orthographic and punctuation errors, as the respectives corrected and normalized forms, and also makes possible the visualization of added and deleted terms. To automatize the integration of many levels of annotation, Astro was used, it is a software that works with several Python modules to Natural Language Processing (NLP), including Aelius and Enchant. To POS tagging, Aelius, a package that uses Natural Language Toolkit (NLTK) libraries, was utilized. From Aelius, AeliusHunPosMacMorpho was chosen, it is a tagger based on HunPos and trained by MAC-Morpho, a corpus composed of journalistic texts. The 9spell checking was made by Enchant, a large library with API (Application Programming Interface) in C and C++ languages. The tagger chosen from inside training corpus MacMorpho,. Astrolábio's texts were produced during text production workshops from the second edition of Rota das Especiarias project, realized on first semester of 2012, with public school students from Camocim, Barroquinha e Jijoca de Jericoacoara, cities located in Ceará. Until this moment of Astrolábio's creation, concluded stages are texts selection, compilation and the first step of automatic annotation by Astro. Astrolábio corpus is already partially avaiable at Rota das Especiarias' website (www.rotadasespeciarias.art.br). Soon, the corpus will be submitted to University of Oxford Text Archive (OTA). As we observed from corpora scene of Portuguese, there's no corpus, in Brazilian Portuguese, with this level of annotation.pt_BR
dc.language.isopt_BRpt_BR
dc.publisherwww.teses.ufc.brpt_BR
dc.subjectComputacional linguisticspt_BR
dc.subjectCorpus linguisticspt_BR
dc.subjectLinguística de corpuspt_BR
dc.subjectLíngua portuguesa – Composição e exercíciospt_BR
dc.subjectLíngua portuguesa – Correção de textospt_BR
dc.subjectProsa escolar brasileira – Cearápt_BR
dc.titleAstrolábio: um corpus de redações escolares do Ceará anotado multidimensionalmente conforme a TEI P5pt_BR
dc.typeDissertaçãopt_BR
dc.description.abstract-ptbrAstrolábio é um corpus compilado, anotado multidimensionalmente e disponibilizado eletronicamente sob a licença Creative Commons Attribution-NonCommercial 3.0 Unported. Trata-se de um corpus, em Português brasileiro, que emprega avançadas tecnologias para o processamento de texto e anotação de corpora. Astrolábio possui anotação multidimensional baseada na codificação TEI P5, que prescreve o uso metalinguagem XML. Com o uso dessa codificação, preservaram-se características essenciais da estrutura e do conteúdo dos documentos anotados, tornando a transcrição o mais fiel possível ao original. Por meio do emprego da tag , foi possível reunir, em um mesmo arquivo, fenômenos de variação linguística, erros ortográficos e de pontuação, bem como as respectivas formas corrigidas e normalizadas, além de possibilitar a visualização de termos que foram acrescidos ou suprimidos. Para a integração automática dos vários níveis de anotação, utilizou-se o Astro, um software que utiliza diversos módulos em Python para o Processamento da Linguagem Natural (PLN), como o Aelius e o Enchant. Na etiquetagem morfossintática, utilizou-se o pacote Aelius, que, por sua vez, recorre à biblioteca Natural Language Toolkit (NLTK). O etiquetador escolhido, dentro do Aelius, foi o AeliusHunposMacMorpho, criado a partir do etiquetador Hunpos, treinado no corpus de textos jornalísticos MAC-Morpho. Efetivou-se a correção ortográfica com o Enchant, uma vasta biblioteca com API (Application Programming Interface) em linguagem C e C++. Os textos que compõem esse corpus foram produzidos durante as oficinas de produção textual da segunda edição do projeto Rota das Especiarias, realizadas no primeiro semestre de 2012, com alunos de escolas públicas das cidades cearenses de Camocim, Barroquinha e Jijoca de Jericoacoara. Até o presente momento da construção do Astrolábio, encontram-se concluídas as etapas de seleção, escanerização, compilação e a primeira fase de anotação automática dos textos por meio do Astro. O corpus Astrolábio já se encontra parcialmente disponível no sítio eletrônico Rota das Especiarias (www.rotadasespeciarias.art.br). Em breve, será submetido ao repositório eletrônico University of Oxford Text Archive (OTA). Pelo que se observou do panorama de corpora do Português, inexiste um corpus, em Português Brasileiro, com esse nível de anotação.pt_BR
dc.title.enAstrolábio: a corpus of school writings of Ceará multi-dimensionally annotated according to TEI P5pt_BR
Aparece nas coleções:PPGL - Dissertações defendidas na UFC

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
2013_dis_kmandrade.pdf3,61 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.