Use este identificador para citar ou linkar para este item:
http://repositorio.ufc.br/handle/riufc/53750
Tipo: | Dissertação |
Título: | Consultas sobre fontes de dados ligados baseadas em reconhecimento de entidades nomeadas |
Título em inglês: | Named Entity Recognition based queries over linked data sources |
Autor(es): | Gaspar, Lucas Peres |
Orientador: | Macêdo, José Antonio Fernandes de |
Palavras-chave: | Geração de SPARQL;Esquema RDF;Named Entity Recognition;Query by Example |
Data do documento: | 2019 |
Citação: | GASPAR, Lucas Peres. Consultas sobre fontes de dados ligados baseadas em reconhecimento de entidades nomeadas. 2019. 66 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal do Ceará, Fortaleza, 2019. |
Resumo: | A Web evoluiu de uma rede de documentos interligados a uma onde tanto documentos e dados estão ligados, resultando no que é comumente conhecido como a Web de Dados, que inclui uma grande variedade de dados, normalmente publicados no formato RDF, sobre múltiplos domínios. Métodos intuitivos de acessar os dados RDF possuem grande importância, uma vez que a abordagem padrão seria executar uma consulta em SPARQL. Entretanto, isso pode ser muito difícil para usuários não-técnicos. Neste trabalho, abordamos o problema de question answering sobre bases RDF. Dada uma busca em linguagem natural ou em palavras-chaves, nosso objetivo é traduzi-la em uma consulta formal em SPARQL que capture a informação necessitada. Nós propomos duas abordagens baseadas em esquema para buscar sobre dados RDF sem nenhum conhecimento prévio da ontologia: Von-QBE e Von-QBNER. Isso é diferente do estado da arte uma vez que suas abordagens são baseadas nas instâncias de dados. Entretanto, isso pode ser infactível em cenários de Big Data, onde os dados são demasiados grandes e requerem muitos recursos computacionais para manter a base em memória. Também, muitas dessas soluções requerem que a base esteja triplificada, o que pode ser uma tarefa difícil em bases de dados legado. Por esta razão, Von-QBE utiliza apenas o esquema da base RDF para responder a busca do usuário. Entretanto, a busca do usuário pode conter informações sobre as instâncias de dados, que não vai corresponder, sintaticamente, a nenhum conceito ou propriedade no esquema da ontologia. Por exemplo, a busca filmes com Angelina Jolie. Considere que o esquema apresente apenas os conceitos Filme e Atriz, e a propriedade estrelando, que relaciona os dois conceitos. Se utilizarmos apenas o esquema da ontologia, apenas Filme será identificado na busca. VonQBNER resolve essa limitação identificando as instâncias envolvidas na busca e o conceito a que correspondem no esquema utilizando modelos de Named Entity Recognition (NER). Os resultados são promissores para alguns conjuntos de dados reais avaliados, considerando que apenas o esquema da ontologia foi utilizado para gerar as consultas em SPARQL. |
Abstract: | The Web has evolved from a network of linked documents to one where both documents and data are linked, resulting in what is commonly known as the Web of Data, which includes a large variety of data usually published in RDF from multiple domains. Intuitive ways of accessing RDF data become increasingly important since the standard approach would be to run SPARQL queries. However, this can be extremely difficult for non-experts users. In this work, we address the problem of question answering over RDF. Given a natural language question or a keyword search string, our goal is to translate it into a formal query as SPARQL that captures the information needed. We propose two schema-based approach to query over RDF data without any previous knowledge about the ontology entities and schema: Von-QBE and Von-QBNER. This is different from the-state-of-art since the approaches are instance-based. However, it can be unfeasible using such approaches in big data scenarios where the ontology base is huge and demands a large number of computational resources to keep the knowledge base in memory. Moreover, most of these solutions need the knowledge base triplified, which can be a hard task for legacy bases. For this reason, Von-QBE uses only the RDF schema to answer the user’s question. However, the user query may contain information about the data instances which does not syntactically match with any concept or property on the ontology schema. For instance, the query Movies with Angelina Jolie. Consider that the ontology schema only presents the concepts Movie and Actress, and a property starring which relates both concepts. If we use only the ontology schema, just the concept Movie matches with the user query. Von-QBNER addresses such limitation by identifying the instances involved in the query and their correspondent concept or property in the ontology schema by using Named Entity Recognition (NER) models. The results are promising for the some real datasets evaluated, considering that only the ontology schema is used to generate SPARQL queries. |
URI: | http://www.repositorio.ufc.br/handle/riufc/53750 |
Aparece nas coleções: | DCOMP - Dissertações defendidas na UFC |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
2019_dis_lpgaspar.pdf | 1,51 MB | Adobe PDF | Visualizar/Abrir |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.