Busca por similaridade de boletins de ocorrência via embeddings: um estudo de caso

Araújo, José Alan Firmiano

Por favor, use este identificador para citar o enlazar este ítem: http://repositorio.ufc.br/handle/riufc/78192

Tipo:	Dissertação
Título :	Busca por similaridade de boletins de ocorrência via embeddings: um estudo de caso
Autor :	Araújo, José Alan Firmiano
Tutor:	Silva, Ticiana Linhares Coelho da
Palabras clave en portugués brasileño:	Busca por similaridade;Embedding de palavras;Embedding de sentenças;Relatórios policiais
Áreas de Conocimiento - CNPq:	CNPQ: CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
Fecha de publicación :	2023
Citación :	ARAÚJO, José Alan Firmiano. Busca por similaridade de boletins de ocorrência via embeddings: um estudo de caso. 2023. 54 f. Dissertação (mestrado) – Universidade Federal do Ceará, Campus de Quixadá, Programa de Pós-Graduação em Computação, Quixadá, 2023.
Resumen en portugués brasileño:	Vários crimes ocorrem diariamente, e o primeiro passo na investigação começa com um boletim de ocorrência. Em cidades com altos índices de criminalidade, é desafiador para a polícia lidar com a análise detalhada de todos os relatos criminais. No entanto, os boletins de ocorrência podem ser similares por apresentarem o mesmo modus operandi. Dado um boletim de ocorrência, o objetivo principal deste trabalho é determinar o mais similar ou duplicado. Um boletim de ocorrência similar pode ser outro relatório com palavras sobrepostas ou um que compartilhe um modus operandi similar. Uma solução possível é representar cada boletim de ocorrência como um vetor de caracteres e comparar os vetores usando uma função de similaridade. Diferentes métodos podem ser empregados para representar a narrativa, incluindo vetores de incorporação e abordagens baseadas em contagem, como o TF-IDF. Esta pesquisa explora o uso de representações de incorporação pré-treinadas nos níveis de palavra e sentença, como Universal Sentence Encoder, Word2Vec, BERT, Doc2Vec, entre outros. Determinamos a representação mais eficaz para capturar similaridades semânticas e léxicas entre relatórios policiais, comparando diferentes modelos de incorporação. Além disso, comparamos a eficácia de modelos de incorporação pré-treinados disponíveis com modelos treinados especificamente em um corpus de relatórios policiais. Outra contribuição deste trabalho é o desenvolvimento de modelos de incorporação treinados especificamente para o domínio de relatórios policiais.
Abstract:	Several crimes happen daily, and the first step in the investigation begins with a police report. In cities with high crime rates, it is challenging for the police to handle the detailed analysis of all criminal reports. However, incident reports may be similar as they present the same modus operandi. Given an incident report, the main objective of this work is to determine the most similar or duplicate. A similar police report may be another report with overlapping words or one that shares a similar modus operandi. One possible solution is to represent each police report as a vector of characters and compare the vectors using a similarity function. Different methods can be employed to represent the narrative, including embedding vectors and count-based approaches such as TF-IDF. This research explores the use of pre-trained embedding representations at both the word and sentence levels, such as Universal Sentence Encoder, Word2Vec, RoBERTa, Doc2Vec, among others. We determine the most effective representation for capturing semantic and lexical similarities between police reports by comparing different embedding models. Furthermore, we compare the effectiveness of available pre-trained embedding models with models specifically trained on a corpus of police reports. Another contribution of this work is the development of embedding models trained specifically for the domain of police reports.
URI :	http://repositorio.ufc.br/handle/riufc/78192
Lattes del tutor:	http://lattes.cnpq.br/3125027229507836
Derechos de acceso:	Acesso Aberto
Aparece en las colecciones:	PCOMP - QUIXADÁ - Dissertações defendidas na UFC

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
2023_dis_jafaraujo.pdf		749,21 kB	Adobe PDF	Visualizar/Abrir

Mostrar el registro Dublin Core completo del ítem