Use este identificador para citar ou linkar para este item: http://repositorio.ufc.br/handle/riufc/61224
Registro completo de metadados
Campo DCValorIdioma
dc.contributor.advisorMagalhães, Regis Pires-
dc.contributor.authorChaves, Letícia Saraiva-
dc.date.accessioned2021-10-15T12:13:55Z-
dc.date.available2021-10-15T12:13:55Z-
dc.date.issued2021-
dc.identifier.citationCHAVES, Letícia Saraiva. Utilizando um modelo transformer no processo de identificação de entidades nomeadas em textos criminais. 2021. 61 f. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação)-Universidade Federal do Ceará, Campus de Quixadá, Quixadá, 2021.pt_BR
dc.identifier.urihttp://www.repositorio.ufc.br/handle/riufc/61224-
dc.description.abstractIdentifying essential information makes it easier to analyze documents such as criminal records. The Secretariat of Public Security and Social Defense of Ceará publishes monthly its statistics separated by criminal indicators to monitor the progress of crime and violence. One of the main indicators is the Lethal and Intentional Violent Crimes (CVLI in the Portuguese acronym), which have daily reports released with important information. The extraction of relevant information uses a Natural Language Processing technique called Named Entity Recognition (NER), which involves locating and classifying named entities in texts. NER models are usually based on convolutional or recurrent neural networks. However, Transformers are becoming a new paradigm of NER. The Transformer model facilitates parallelization during training, enabling training on larger data sets than was possible before it was introduced. From this, pre-trained systems were developed, such as BERT (Bidirectional Encoder Representations from Transformers), trained with a massive set of general language data, and can be tuned for language-specific tasks, such as NER. This work proposes the production of a NER model using stratified data, capable of recognizing named entities in CVLI texts, with the Transformer model pre-trained in Portuguese. The model obtained good results. The metric F1-score obtained the value of 71.44% and the Balanced Accuracy of 66.73%, surpassing the baselines.pt_BR
dc.language.isopt_BRpt_BR
dc.subjectProcessamento de linguagem naturalpt_BR
dc.subjectReconhecimento de entidade nomeadapt_BR
dc.subjectRedes neurais (Computação)pt_BR
dc.subjectAprendizagem profundapt_BR
dc.titleUtilizando um modelo transformer no processo de identificação de entidades nomeadas em textos criminaispt_BR
dc.typeTCCpt_BR
dc.description.abstract-ptbrA identificação de informações importantes facilita a análise de documentos, como registros criminais. A Secretaria de Segurança Pública e Defesa Social do Ceará divulga, mensalmente, suas estatísticas separadas por indicadores criminais, para o acompanhamento do progresso da criminalidade e da violência. Um dos principais indicadores é o de Crimes Violentos Letais e Intencionais (CVLI), que têm relatórios diários divulgados com informações importantes. A extração de informações relevantes utiliza uma técnica de Processamento de Linguagem Natural chamada Reconhecimento de Entidades Nomeadas (NER do inglês Named Entity Recognition), que consiste em localizar e classificar entidades nomeadas em textos. Os modelos NER normalmente são baseados em redes neurais convolucionais ou recorrentes. Porém, os Transformers estão se tornando um novo paradigma da NER. O modelo Transformer facilita a paralelização durante o treinamento, com isso, permite o treinamento em conjuntos de dados maiores do que era possível antes de ser introduzido. A partir disso, foram desenvolvidos sistemas pré-treinados, como BERT (Bidirectional Encoder Representations from Transformers), treinado com um enorme conjunto de dados de linguagem geral, e pode ser ajustado para tarefas específicas de linguagem, como NER. Este trabalho propõe a produção de um modelo NER utilizando dados estratificados, capaz de reconhecer entidades nomeadas em textos CVLI, com o modelo Transformer pré-treinado em português. O modelo obteve bons resultados, a métrica F1-score obteve o valor de 71,44% e a Acurácia Balanceada de 66,73%, superando os baselines.pt_BR
Aparece nas coleções:CIÊNCIA DA COMPUTAÇÃO-QUIXADÁ - Monografias

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
2021_tcc_lschaves.pdf1,83 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.