Use este identificador para citar ou linkar para este item: http://repositorio.ufc.br/handle/riufc/69874
Tipo: Dissertação
Título: Resolução de topônimos em textos não estruturados baseada em heurísticas
Título em inglês: Toponym resolution in unstructured texts based on heuristics
Autor(es): Sá, Breno Alef Dourado
Orientador: Macêdo, José Antonio Fernandes de
Coorientador: Silva, Ticiana Linhares Coelho da
Palavras-chave: Geocoding;Resolução de topônimos;Desambiguação baseada em heurística;Topônimos adjetivos;Tipos de topônimo
Data do documento: 2022
Citação: SÁ, Breno Alef Dourado. Resolução de topônimos em textos não estruturados baseada em heurísticas. 2022. 66 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal do Ceará, Fortaleza, 2022.
Resumo: Cotidianamente, pessoas utilizam nomes de lugares e relações espaciais para dar direções e informar o local de eventos. Menções a locais, também chamadas de topônimos, estão presentes nos mais variados tipos de documentos com conteúdo geográfico, como artigos, blogs, relatórios e relatos criminais. As informações geográficas extraídas desses documentos podem ser utilizada em aplicações de resposta à emergências, monitoramento de epidemias, agrupamento de notícias, planejamento turístico, entre outros. No entanto, devido a ausência de metadados, a extração dessas informações a partir de textos não estruturados não é uma tarefa trivial. Um dos desafios nesse processo é o mapeamento dos topônimos para coordenadas geográficas devido a ambiguidade dos nomes dos locais, que comumente possuem homônimos. O processo de resolução de topônimos para suas coordenadas, obtendo candidatos e os desambiguando, chama-se geocoding. O presente trabalho propõe e avalia duas heurísticas para geocoding: normalização de topônimos adjetivos e otimização geométrica por tipo de topônimo. Inicialmente, o baseline é definido através de experimentações com heurísticas. Em seguida, são criados dois geocoders modificando o baseline para utilizar cada uma das heurística proposta neste trabalho. Por fim, um terceiro geocoder é criado de forma semelhante para utilizar a combinação das duas heurísticas. Os resultados indicam uma melhora de desempenho do geocoding utilizando essas heurísticas em comparação com o baseline, chegando a superar geocoders do estado da arte nas bases de dados avaliadas.
Abstract: Everyday, people use place names and spatial relationships to give directions and inform the location of events. Mentions of places, also called toponyms, are present in the most varied types of documents with geographic content, such as articles, blogs, reports and criminal reports. The geographic information extracted from these documents can be used in emergency response applications, epidemic monitoring, news gathering, tourism planning, among others. However, due to the absence of metadata, extracting this information from unstructured texts is not a trivial task. One of the challenges in this process is the mapping of toponyms to geographic coordinates due to the ambiguity of the names of the places, which commonly have homonyms. The process of solving toponyms to their coordinates, obtaining candidates and disambiguating them, is called geocoding. The present work proposes and evaluates two heuristics for geocoding: normalization of adjectival toponyms and geometric optimization by toponym type. Initially, the baseline is defined through experiments with heuristics. Then, two geocoders are created by modifying the baseline to use each of the heuristics proposed in this work. Finally, a third geocoder is similarly created to use the combination of the two heuristics. The results indicate an improvement in the performance of geocoding using these heuristics compared to the baseline, even surpassing state-of-the-art geocoders in the databases evaluated.
URI: http://www.repositorio.ufc.br/handle/riufc/69874
Aparece nas coleções:DCOMP - Dissertações defendidas na UFC

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
2022_dis_badsa.pdf1,02 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.