Please use this identifier to cite or link to this item: http://repositorio.ufc.br/handle/riufc/69874
Type: Dissertação
Title: Resolução de topônimos em textos não estruturados baseada em heurísticas
Title in English: Toponym resolution in unstructured texts based on heuristics
Authors: Sá, Breno Alef Dourado
Advisor: Macêdo, José Antonio Fernandes de
Co-advisor: Silva, Ticiana Linhares Coelho da
Keywords: Geocoding;Resolução de topônimos;Desambiguação baseada em heurística;Topônimos adjetivos;Tipos de topônimo
Issue Date: 2022
Citation: SÁ, Breno Alef Dourado. Resolução de topônimos em textos não estruturados baseada em heurísticas. 2022. 66 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal do Ceará, Fortaleza, 2022.
Abstract in Brazilian Portuguese: Cotidianamente, pessoas utilizam nomes de lugares e relações espaciais para dar direções e informar o local de eventos. Menções a locais, também chamadas de topônimos, estão presentes nos mais variados tipos de documentos com conteúdo geográfico, como artigos, blogs, relatórios e relatos criminais. As informações geográficas extraídas desses documentos podem ser utilizada em aplicações de resposta à emergências, monitoramento de epidemias, agrupamento de notícias, planejamento turístico, entre outros. No entanto, devido a ausência de metadados, a extração dessas informações a partir de textos não estruturados não é uma tarefa trivial. Um dos desafios nesse processo é o mapeamento dos topônimos para coordenadas geográficas devido a ambiguidade dos nomes dos locais, que comumente possuem homônimos. O processo de resolução de topônimos para suas coordenadas, obtendo candidatos e os desambiguando, chama-se geocoding. O presente trabalho propõe e avalia duas heurísticas para geocoding: normalização de topônimos adjetivos e otimização geométrica por tipo de topônimo. Inicialmente, o baseline é definido através de experimentações com heurísticas. Em seguida, são criados dois geocoders modificando o baseline para utilizar cada uma das heurística proposta neste trabalho. Por fim, um terceiro geocoder é criado de forma semelhante para utilizar a combinação das duas heurísticas. Os resultados indicam uma melhora de desempenho do geocoding utilizando essas heurísticas em comparação com o baseline, chegando a superar geocoders do estado da arte nas bases de dados avaliadas.
Abstract: Everyday, people use place names and spatial relationships to give directions and inform the location of events. Mentions of places, also called toponyms, are present in the most varied types of documents with geographic content, such as articles, blogs, reports and criminal reports. The geographic information extracted from these documents can be used in emergency response applications, epidemic monitoring, news gathering, tourism planning, among others. However, due to the absence of metadata, extracting this information from unstructured texts is not a trivial task. One of the challenges in this process is the mapping of toponyms to geographic coordinates due to the ambiguity of the names of the places, which commonly have homonyms. The process of solving toponyms to their coordinates, obtaining candidates and disambiguating them, is called geocoding. The present work proposes and evaluates two heuristics for geocoding: normalization of adjectival toponyms and geometric optimization by toponym type. Initially, the baseline is defined through experiments with heuristics. Then, two geocoders are created by modifying the baseline to use each of the heuristics proposed in this work. Finally, a third geocoder is similarly created to use the combination of the two heuristics. The results indicate an improvement in the performance of geocoding using these heuristics compared to the baseline, even surpassing state-of-the-art geocoders in the databases evaluated.
URI: http://www.repositorio.ufc.br/handle/riufc/69874
Appears in Collections:DCOMP - Dissertações defendidas na UFC

Files in This Item:
File Description SizeFormat 
2022_dis_badsa.pdf1,02 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.