Please use this identifier to cite or link to this item: http://repositorio.ufc.br/handle/riufc/39385
Type: Tese
Title: Nacluster: resolvendo entidades em larga escala a partir de múltiplos catálogos de astronomia
Authors: Freire, Vinícius Pires de Moura
Advisor: Macêdo, José Antônio Fernandes de
Co-advisor: Porto, Fábio André Machado
Keywords: Resolução de entidades;Casamento de catálogos;Big data
Issue Date: 2016
Citation: FREIRE, Vinícius Pires de Moura. Nacluster: resolvendo entidades em larga escala a partir de múltiplos catálogos de astronomia. 2016. 171 f. Tese (Doutorado em Ciência da Computação) - Universidade Federal do Ceará, Fortaleza, 2016.
Abstract in Brazilian Portuguese: Levantamentos astronômicos usam instrumentos poderosos para navegar o céu e identificar objetos de interesse dentro da região pesquisada. Objetos do céu são caracterizados individualmente com coordenadas espaciais, identificando a sua posição no céu, além de outros atributos descritivos. Gerar uma visão integrada do céu com base em catálogos produzidos por diferentes levantamentos enfrenta um difícil problema de casamento de catálogos. Devido às variações na calibração dos instrumentos de captura, a posição de um único objeto celeste pode variar de um catálogo para outro. Além disso, em determinadas regiões densas do céu, este problema é agravado por um grande número de potenciais candidatos ao casamento para cada objeto. As abordagens tradicionais para lidar com esse problema usam uma distância limite de ε para reduzir o número de candidatos correspondentes. Além disso, elas adotam uma abordagem para casar n catálogos aos pares, inferindo transitividade no casamento, o que nem sempre possuem. Nesta tese, apresentamos o NACluster, um algoritmo de clusterização não-supervisionado para realizar o casamento de vários catálogos. A estratégia de casamento do NACluster estende o tradicional algoritmo de clusterização k-means relaxando o número k de clusters (ou seja, objetos celestes casados). Também propomos o ParallelNACluster, uma versão paralela do NACluster que se aproveita do particionamento dos dados de entrada, e aceita grandes volumes de dados mesmo utilizando um conjunto de hardware de pequeno porte. Além disso, propomos o CIBoundary, uma nova estratégia para tratamento do casamento de objetos espacialmente separados em partições de dados vizinhas. O SCIBoundary permite que obtenhamos resultados equivalentes entre o NACluster e o ParallelNACluster. Nesta tese, também apresentamos o AODP, um workflow para realizar o particionamento dos dados em disco local e executar o casamento dos mesmos em ambiente distribuído através do ParallelNACluster. Nossos experimentos mostram a eficiência das estratégias centralizada e paralela através de excelentes índices de acertos obtidos nas clusterizações, bem como a eficiência do SCIBoundary no tratamento das fronteiras.
Abstract: Astronomy surveys use powerful instruments to browse the sky and identify objects of interest within the surveyed region. Sky objects are individually characterized with spatial coordinates, identifying their position in the sky, in addition to other descriptive attributes. Composing an integrated view of the sky based on catalogues produced by different surveys faces a hard problem of matching objects that have been captured by different telescopes. Due to variations on capturing instruments calibration, the sky position of a single sky object may vary from a catalog to the other. Moreover, in particular dense regions of the sky this problem is exacerbated by a huge number of candidate matches for each given object. Traditional approaches for dealing with this problem use a threshold distance of ε to reduce the number of matching candidates. Additionally, they adopt a pairwise approach for matching n catalogues inferring transitivity among matches, which not always hold. In this thesis, we present NACluster a non-supervised clustering algorithm for dealing with sky object matching in multiple catalogues. NACluster matching strategy extends the traditional k-means clustering algorithm by relaxing the number k of cluster (i.e. matched sky objects). We propose the ParallelNACluster, a parallel version of NACluster that takes advantage of partitioning the input data, and accept large volumes of data using a set of conventional hardware. In addition, we propose the SCIBoundary, a new strategy for matching neighboring stars placed in different data partitions. The strategy leads to equivalent solutions in both NACluster and ParallelNACluster. In this thesis, we present also the AODP, a workflow to perform partitioning of data on local disk and run their matching in distributed environment via ParallelNACluster. Our experiments show the efficiency of centralized and parallel strategies, as well as the efficiency of SCIBoundary in the treatment of borders.
URI: http://www.repositorio.ufc.br/handle/riufc/39385
Appears in Collections:DCOMP - Teses defendidas na UFC

Files in This Item:
File Description SizeFormat 
2016_tese_vpmfreire.pdf6,37 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.