Use este identificador para citar ou linkar para este item:
http://repositorio.ufc.br/handle/riufc/8195
Tipo: | Dissertação |
Título: | Astrolábio: um corpus de redações escolares do Ceará anotado multidimensionalmente conforme a TEI P5 |
Título em inglês: | Astrolábio: a corpus of school writings of Ceará multi-dimensionally annotated according to TEI P5 |
Autor(es): | Andrade, Katiuscia de Moraes |
Orientador: | Araripe, Leonel Figueiredo de Alencar |
Palavras-chave: | Computacional linguistics;Corpus linguistics;Linguística de corpus;Língua portuguesa – Composição e exercícios;Língua portuguesa – Correção de textos;Prosa escolar brasileira – Ceará |
Data do documento: | 2013 |
Instituição/Editor/Publicador: | www.teses.ufc.br |
Citação: | Andrade, K. M.; Araripe, L. F. A. (2013) |
Resumo: | Astrolábio é um corpus compilado, anotado multidimensionalmente e disponibilizado eletronicamente sob a licença Creative Commons Attribution-NonCommercial 3.0 Unported. Trata-se de um corpus, em Português brasileiro, que emprega avançadas tecnologias para o processamento de texto e anotação de corpora. Astrolábio possui anotação multidimensional baseada na codificação TEI P5, que prescreve o uso metalinguagem XML. Com o uso dessa codificação, preservaram-se características essenciais da estrutura e do conteúdo dos documentos anotados, tornando a transcrição o mais fiel possível ao original. Por meio do emprego da tag , foi possível reunir, em um mesmo arquivo, fenômenos de variação linguística, erros ortográficos e de pontuação, bem como as respectivas formas corrigidas e normalizadas, além de possibilitar a visualização de termos que foram acrescidos ou suprimidos. Para a integração automática dos vários níveis de anotação, utilizou-se o Astro, um software que utiliza diversos módulos em Python para o Processamento da Linguagem Natural (PLN), como o Aelius e o Enchant. Na etiquetagem morfossintática, utilizou-se o pacote Aelius, que, por sua vez, recorre à biblioteca Natural Language Toolkit (NLTK). O etiquetador escolhido, dentro do Aelius, foi o AeliusHunposMacMorpho, criado a partir do etiquetador Hunpos, treinado no corpus de textos jornalísticos MAC-Morpho. Efetivou-se a correção ortográfica com o Enchant, uma vasta biblioteca com API (Application Programming Interface) em linguagem C e C++. Os textos que compõem esse corpus foram produzidos durante as oficinas de produção textual da segunda edição do projeto Rota das Especiarias, realizadas no primeiro semestre de 2012, com alunos de escolas públicas das cidades cearenses de Camocim, Barroquinha e Jijoca de Jericoacoara. Até o presente momento da construção do Astrolábio, encontram-se concluídas as etapas de seleção, escanerização, compilação e a primeira fase de anotação automática dos textos por meio do Astro. O corpus Astrolábio já se encontra parcialmente disponível no sítio eletrônico Rota das Especiarias (www.rotadasespeciarias.art.br). Em breve, será submetido ao repositório eletrônico University of Oxford Text Archive (OTA). Pelo que se observou do panorama de corpora do Português, inexiste um corpus, em Português Brasileiro, com esse nível de anotação. |
Abstract: | Astrolábio is a compiled corpus, with multidimensional annotation, and shared under Creative Commons Attribution-NonCommercial 3.0 Unported licence. It is a corpus, in Brazilian Portuguese, that uses advanced technologies to text processing and corpora annotation. Astrolábio has multidimensional annotation based on TEI P5 guidelines, that prescribes XML metalanguage. Through these guidelines, essential structures from the annotated documents were preserved, keeping the transcription as reliable as possible to the original. By using tag , it enabled keep, in the same archive, linguistic variation phenomena, orthographic and punctuation errors, as the respectives corrected and normalized forms, and also makes possible the visualization of added and deleted terms. To automatize the integration of many levels of annotation, Astro was used, it is a software that works with several Python modules to Natural Language Processing (NLP), including Aelius and Enchant. To POS tagging, Aelius, a package that uses Natural Language Toolkit (NLTK) libraries, was utilized. From Aelius, AeliusHunPosMacMorpho was chosen, it is a tagger based on HunPos and trained by MAC-Morpho, a corpus composed of journalistic texts. The 9spell checking was made by Enchant, a large library with API (Application Programming Interface) in C and C++ languages. The tagger chosen from inside training corpus MacMorpho,. Astrolábio's texts were produced during text production workshops from the second edition of Rota das Especiarias project, realized on first semester of 2012, with public school students from Camocim, Barroquinha e Jijoca de Jericoacoara, cities located in Ceará. Until this moment of Astrolábio's creation, concluded stages are texts selection, compilation and the first step of automatic annotation by Astro. Astrolábio corpus is already partially avaiable at Rota das Especiarias' website (www.rotadasespeciarias.art.br). Soon, the corpus will be submitted to University of Oxford Text Archive (OTA). As we observed from corpora scene of Portuguese, there's no corpus, in Brazilian Portuguese, with this level of annotation. |
Descrição: | ANDRADE, Katiuscia de Moraes. Astrolábio: um corpus de redações escolares do Ceará anotado multidimensionalmente conforme a TEI P5. 2013. 135f. – Dissertação (Mestrado) – Universidade Federal do Ceará, Departamento de Letras Vernáculas, Programa de Pós-graduação em Linguística, Fortaleza (CE), 2013. |
URI: | http://www.repositorio.ufc.br/handle/riufc/8195 |
Aparece nas coleções: | PPGL - Dissertações defendidas na UFC |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
2013_dis_kmandrade.pdf | 3,61 MB | Adobe PDF | Visualizar/Abrir |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.