Utilizando um modelo transformer no processo de identificação de entidades nomeadas em textos criminais

Chaves, Letícia Saraiva

Por favor, use este identificador para citar o enlazar este ítem: http://repositorio.ufc.br/handle/riufc/61224

Tipo:	TCC
Título :	Utilizando um modelo transformer no processo de identificação de entidades nomeadas em textos criminais
Autor :	Chaves, Letícia Saraiva
Tutor:	Magalhães, Regis Pires
Palabras clave :	Processamento de linguagem natural;Reconhecimento de entidade nomeada;Redes neurais (Computação);Aprendizagem profunda
Fecha de publicación :	2021
Citación :	CHAVES, Letícia Saraiva. Utilizando um modelo transformer no processo de identificação de entidades nomeadas em textos criminais. 2021. 61 f. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação)-Universidade Federal do Ceará, Campus de Quixadá, Quixadá, 2021.
Resumen en portugués brasileño:	A identificação de informações importantes facilita a análise de documentos, como registros criminais. A Secretaria de Segurança Pública e Defesa Social do Ceará divulga, mensalmente, suas estatísticas separadas por indicadores criminais, para o acompanhamento do progresso da criminalidade e da violência. Um dos principais indicadores é o de Crimes Violentos Letais e Intencionais (CVLI), que têm relatórios diários divulgados com informações importantes. A extração de informações relevantes utiliza uma técnica de Processamento de Linguagem Natural chamada Reconhecimento de Entidades Nomeadas (NER do inglês Named Entity Recognition), que consiste em localizar e classificar entidades nomeadas em textos. Os modelos NER normalmente são baseados em redes neurais convolucionais ou recorrentes. Porém, os Transformers estão se tornando um novo paradigma da NER. O modelo Transformer facilita a paralelização durante o treinamento, com isso, permite o treinamento em conjuntos de dados maiores do que era possível antes de ser introduzido. A partir disso, foram desenvolvidos sistemas pré-treinados, como BERT (Bidirectional Encoder Representations from Transformers), treinado com um enorme conjunto de dados de linguagem geral, e pode ser ajustado para tarefas específicas de linguagem, como NER. Este trabalho propõe a produção de um modelo NER utilizando dados estratificados, capaz de reconhecer entidades nomeadas em textos CVLI, com o modelo Transformer pré-treinado em português. O modelo obteve bons resultados, a métrica F1-score obteve o valor de 71,44% e a Acurácia Balanceada de 66,73%, superando os baselines.
Abstract:	Identifying essential information makes it easier to analyze documents such as criminal records. The Secretariat of Public Security and Social Defense of Ceará publishes monthly its statistics separated by criminal indicators to monitor the progress of crime and violence. One of the main indicators is the Lethal and Intentional Violent Crimes (CVLI in the Portuguese acronym), which have daily reports released with important information. The extraction of relevant information uses a Natural Language Processing technique called Named Entity Recognition (NER), which involves locating and classifying named entities in texts. NER models are usually based on convolutional or recurrent neural networks. However, Transformers are becoming a new paradigm of NER. The Transformer model facilitates parallelization during training, enabling training on larger data sets than was possible before it was introduced. From this, pre-trained systems were developed, such as BERT (Bidirectional Encoder Representations from Transformers), trained with a massive set of general language data, and can be tuned for language-specific tasks, such as NER. This work proposes the production of a NER model using stratified data, capable of recognizing named entities in CVLI texts, with the Transformer model pre-trained in Portuguese. The model obtained good results. The metric F1-score obtained the value of 71.44% and the Balanced Accuracy of 66.73%, surpassing the baselines.
URI :	http://www.repositorio.ufc.br/handle/riufc/61224
Aparece en las colecciones:	CIÊNCIA DA COMPUTAÇÃO-QUIXADÁ - Monografias

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
2021_tcc_lschaves.pdf		1,83 MB	Adobe PDF	Visualizar/Abrir

Mostrar el registro Dublin Core completo del ítem