Please use this identifier to cite or link to this item: http://www.repositorio.ufc.br/handle/riufc/61224
Title in Portuguese: Utilizando um modelo transformer no processo de identificação de entidades nomeadas em textos criminais
Author: Chaves, Letícia Saraiva
Advisor(s): Magalhães, Regis Pires
Keywords: Processamento de linguagem natural
Reconhecimento de entidade nomeada
Redes neurais (Computação)
Aprendizagem profunda
Issue Date: 2021
Citation: CHAVES, Letícia Saraiva. Utilizando um modelo transformer no processo de identificação de entidades nomeadas em textos criminais. 2021. 61 f. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação)-Universidade Federal do Ceará, Campus de Quixadá, Quixadá, 2021.
Abstract in Portuguese: A identificação de informações importantes facilita a análise de documentos, como registros criminais. A Secretaria de Segurança Pública e Defesa Social do Ceará divulga, mensalmente, suas estatísticas separadas por indicadores criminais, para o acompanhamento do progresso da criminalidade e da violência. Um dos principais indicadores é o de Crimes Violentos Letais e Intencionais (CVLI), que têm relatórios diários divulgados com informações importantes. A extração de informações relevantes utiliza uma técnica de Processamento de Linguagem Natural chamada Reconhecimento de Entidades Nomeadas (NER do inglês Named Entity Recognition), que consiste em localizar e classificar entidades nomeadas em textos. Os modelos NER normalmente são baseados em redes neurais convolucionais ou recorrentes. Porém, os Transformers estão se tornando um novo paradigma da NER. O modelo Transformer facilita a paralelização durante o treinamento, com isso, permite o treinamento em conjuntos de dados maiores do que era possível antes de ser introduzido. A partir disso, foram desenvolvidos sistemas pré-treinados, como BERT (Bidirectional Encoder Representations from Transformers), treinado com um enorme conjunto de dados de linguagem geral, e pode ser ajustado para tarefas específicas de linguagem, como NER. Este trabalho propõe a produção de um modelo NER utilizando dados estratificados, capaz de reconhecer entidades nomeadas em textos CVLI, com o modelo Transformer pré-treinado em português. O modelo obteve bons resultados, a métrica F1-score obteve o valor de 71,44% e a Acurácia Balanceada de 66,73%, superando os baselines.
Abstract: Identifying essential information makes it easier to analyze documents such as criminal records. The Secretariat of Public Security and Social Defense of Ceará publishes monthly its statistics separated by criminal indicators to monitor the progress of crime and violence. One of the main indicators is the Lethal and Intentional Violent Crimes (CVLI in the Portuguese acronym), which have daily reports released with important information. The extraction of relevant information uses a Natural Language Processing technique called Named Entity Recognition (NER), which involves locating and classifying named entities in texts. NER models are usually based on convolutional or recurrent neural networks. However, Transformers are becoming a new paradigm of NER. The Transformer model facilitates parallelization during training, enabling training on larger data sets than was possible before it was introduced. From this, pre-trained systems were developed, such as BERT (Bidirectional Encoder Representations from Transformers), trained with a massive set of general language data, and can be tuned for language-specific tasks, such as NER. This work proposes the production of a NER model using stratified data, capable of recognizing named entities in CVLI texts, with the Transformer model pre-trained in Portuguese. The model obtained good results. The metric F1-score obtained the value of 71.44% and the Balanced Accuracy of 66.73%, surpassing the baselines.
URI: http://www.repositorio.ufc.br/handle/riufc/61224
metadata.dc.type: TCC
Appears in Collections:CIÊNCIA DA COMPUTAÇÃO-QUIXADÁ - Monografias

Files in This Item:
File Description SizeFormat 
2021_tcc_lschaves.pdf1,83 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.