Please use this identifier to cite or link to this item:
http://repositorio.ufc.br/handle/riufc/78192
Type: | Dissertação |
Title: | Busca por similaridade de boletins de ocorrência via embeddings: um estudo de caso |
Authors: | Araújo, José Alan Firmiano |
Advisor: | Silva, Ticiana Linhares Coelho da |
Keywords in Brazilian Portuguese : | Busca por similaridade;Embedding de palavras;Embedding de sentenças;Relatórios policiais |
Knowledge Areas - CNPq: | CNPQ: CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO |
Issue Date: | 2023 |
Citation: | ARAÚJO, José Alan Firmiano. Busca por similaridade de boletins de ocorrência via embeddings: um estudo de caso. 2023. 54 f. Dissertação (mestrado) – Universidade Federal do Ceará, Campus de Quixadá, Programa de Pós-Graduação em Computação, Quixadá, 2023. |
Abstract in Brazilian Portuguese: | Vários crimes ocorrem diariamente, e o primeiro passo na investigação começa com um boletim de ocorrência. Em cidades com altos índices de criminalidade, é desafiador para a polícia lidar com a análise detalhada de todos os relatos criminais. No entanto, os boletins de ocorrência podem ser similares por apresentarem o mesmo modus operandi. Dado um boletim de ocorrência, o objetivo principal deste trabalho é determinar o mais similar ou duplicado. Um boletim de ocorrência similar pode ser outro relatório com palavras sobrepostas ou um que compartilhe um modus operandi similar. Uma solução possível é representar cada boletim de ocorrência como um vetor de caracteres e comparar os vetores usando uma função de similaridade. Diferentes métodos podem ser empregados para representar a narrativa, incluindo vetores de incorporação e abordagens baseadas em contagem, como o TF-IDF. Esta pesquisa explora o uso de representações de incorporação pré-treinadas nos níveis de palavra e sentença, como Universal Sentence Encoder, Word2Vec, BERT, Doc2Vec, entre outros. Determinamos a representação mais eficaz para capturar similaridades semânticas e léxicas entre relatórios policiais, comparando diferentes modelos de incorporação. Além disso, comparamos a eficácia de modelos de incorporação pré-treinados disponíveis com modelos treinados especificamente em um corpus de relatórios policiais. Outra contribuição deste trabalho é o desenvolvimento de modelos de incorporação treinados especificamente para o domínio de relatórios policiais. |
Abstract: | Several crimes happen daily, and the first step in the investigation begins with a police report. In cities with high crime rates, it is challenging for the police to handle the detailed analysis of all criminal reports. However, incident reports may be similar as they present the same modus operandi. Given an incident report, the main objective of this work is to determine the most similar or duplicate. A similar police report may be another report with overlapping words or one that shares a similar modus operandi. One possible solution is to represent each police report as a vector of characters and compare the vectors using a similarity function. Different methods can be employed to represent the narrative, including embedding vectors and count-based approaches such as TF-IDF. This research explores the use of pre-trained embedding representations at both the word and sentence levels, such as Universal Sentence Encoder, Word2Vec, RoBERTa, Doc2Vec, among others. We determine the most effective representation for capturing semantic and lexical similarities between police reports by comparing different embedding models. Furthermore, we compare the effectiveness of available pre-trained embedding models with models specifically trained on a corpus of police reports. Another contribution of this work is the development of embedding models trained specifically for the domain of police reports. |
URI: | http://repositorio.ufc.br/handle/riufc/78192 |
Advisor's Lattes: | http://lattes.cnpq.br/3125027229507836 |
Access Rights: | Acesso Aberto |
Appears in Collections: | PCOMP - Dissertações defendidas na UFC |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
2023_dis_jafaraujo.pdf | 749,21 kB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.