Processamento de consulta em um framework baseado em mediador para integração de dados no padrão de linked data

Pinheiro, João Carlos

Please use this identifier to cite or link to this item: http://repositorio.ufc.br/handle/riufc/61237

Type:	Tese
Title:	Processamento de consulta em um framework baseado em mediador para integração de dados no padrão de linked data
Authors:	Pinheiro, João Carlos
Advisor:	Vidal, Vânia Maria Ponte
Co-advisor:	Macêdo, José Antônio Fernandes de
Keywords:	Processamento eletrônico de dados;Framework (Arquivo de computador);Web semântica;Processamento distribuído
Issue Date:	2011
Citation:	PINHEIRO, João Carlos. Processamento de consulta em um framework baseado em mediador para integração de dados no padrão de linked data. 2011. 152 f. Tese (Doutorado em Ciência da Computação) - Universidade Federal do Ceará, Fortaleza, 2011.
Abstract in Brazilian Portuguese:	A Web evoluiu de um espaço de informação global de hipertexto para uma rede de Linked Data conhecida como a Web dos dados. Sendo que o uso de RDF, um dos pilares da Web semântica, tem sido fundamental para armazenamento e publicação de dados no padrão de Linked Data acessível via SPARQL endpoint através da linguagem de consulta SPARQL, que permite responder a consultas distribuídas que não poderiam ser respondidas por uma única fonte de dados ou até mesmo por motores de busca na Web. Porém, a dificuldade para formulação de consultas distribuídas tem sido um obstáculo para aproveitar esses dados em virtude da autonomia, distribuição e vocabulário heterogêneo das fontes de dados. Esse cenário ratifica a necessidade de mecanismos eficientes para a integração de dados, que podem potencializar o reuso desses dados de maneira simples e eficiente. Nesse contexto, este trabalho apresenta um framework baseado em mediador para integração de dados no padrão de Linked Data acessíveis via SPARQL endpoint em que o esquema global é representado por uma ontologia de domínio, que fornece um vocabulário compartilhado. Cada fonte de dados é descrita por uma ontologia de aplicação, que se refere ao mesmo vocabulário compartilhado da ontologia de domínio. Dentro desse escopo, este trabalho propõe um método para o processamento distribuído de consultas SPARQL, destacando-se: a) um algoritmo de reformulação de consulta em que duas questões-chave são tratadas: a busca de dados apenas em fontes de dados que podem contribuir com qualquer resultado intermediário, sem precisar recorrer a mecanismos de inferência para fazer a expansão da consulta; e a utilização de ligações same-as e URI-links para lidar com informação incompleta; b) na etapa de execução exploram-se algoritmos e técnicas que possibilitam a redução do volume de dados intermediários, o processamento paralelo de consultas, os modelos pull e push de entrega de dados e o processamento adaptativo que combina com proficiência os algoritmos junção. Essas técnicas são essenciais no ambiente altamente dinâmico dos Linked Data, que apresentam duas características que desafiam a avaliação de consultas SPARQL distribuídas: larga escala e imprevisibilidade nos tempos de entrega de dados. A estratégia de execução foi avaliado por meio de vários experimentos, e os resultados fornecem evidências empiricas de escalabilidade e ganho de desempenho para integração de dados.
Abstract:	The Web evolved from a global information space of hypertext to the Linked Data network, also known as Web of Data. The use of RDF, one of the cornerstones of the Semantic Web, has been crucial for storage and publication of Linked Data accessible via SPARQL endpoint through the SPARQL query language, that allows answering distributed queries which could not be answered by a single data source or even search engines on the Web. However the difficulty of distributed query formulation has been an obstacle to take advantage of these data because of the autonomy, distribution and heterogeneous vocabulary of data sources. This scenario confirms the need for efficient mechanisms for data integration that can leverage the reuse of such data simply and efficiently. In that context, this work presents a framework based on a mediator for Linked Data integration accessible via SPARQL endpoint where global schema is represented by a domain ontology, which provides a shared vocabulary. Each data source, published on the Web according to the Linked Data principles, is described by an application ontology, whose vocabulary is restricted to be a subset of the domain ontology vocabulary. Inside this context, this work proposes a method for processing distributed SPARQL queries, including: a) an algorithm for query reformulation in which two key questions are addressed: the search for data only to data sources that may contribute with any intermediate result, without appeal to inference mechanisms for query expansion, and the use of same-as and URI-links to deal with incomplete information, b) the execution step explores algorithms and techniques that enable the reduction in the volume of intermediate data, parallel query processing, pull and push models for delivery of data and processing that combines adaptive join algorithms proficiently. These techniques are essential in the highly dynamic environment of the Linked Data, which have two characteristics that challenge the distributed SPARQL query evaluation: a large scale and unpredictability in time data delivery. The optimization strategy was evaluated through several experiments, and the results provide empirical evidence of its scalability and performance gains for data integration.
URI:	http://www.repositorio.ufc.br/handle/riufc/61237
Appears in Collections:	DCOMP - Teses defendidas na UFC

Files in This Item:

File	Description	Size	Format
2011_tese_jcpinheiro.pdf		23,29 MB	Adobe PDF	View/Open

Show full item record