Use este identificador para citar ou linkar para este item:
http://repositorio.ufc.br/handle/riufc/38796
Tipo: | Dissertação |
Título: | Uma abordagem de privacidade diferencial para dados correlacionados utilizando técnicas de agrupamento |
Título em inglês: | A differentially private approach for correlated data with clustering |
Autor(es): | Mendonça, André Luís da Costa |
Orientador: | Machado, Javam de Castro |
Palavras-chave: | Privacidade de dados;Privacidade diferencial;Dados correlacionados;Agrupamento de dados |
Data do documento: | 2018 |
Citação: | MENDONÇA, André Luís da Costa. Uma abordagem de privacidade diferencial para dados correlacionados utilizando técnicas de agrupamento. 2018. 93 f. Dissertação (Mestrado em Ciência da Computação)-Universidade Federal do Ceará, Fortaleza, 2018. |
Resumo: | A Privacidade Diferencial é um modelo matemático desenvolvido para dificultar o processo de identificação de indivíduos em conjuntos de dados estatísticos mantendo, ainda, a utilidade dos dados elevada. Embora a Privacidade Diferencial tenha sido amplamente utilizada para proteger a privacidade dos indivíduos, ela não foi desenvolvida para prover as mesmas garantias sobre dados correlacionados, uma vez que o modelo considera, em essência, a independência dos dados entre si. As técnicas existentes que utilizam Privacidade Diferencial em dados correlacionados buscam utilizar parâmetros de correlação ou coeficientes de correlação, e.g. Pearson e Spearman, para medir a correlação entre os indivíduos do conjunto de dados. No entanto, tais parâmetros e coeficientes tendem a introduzir, nas respostas das consultas, uma quantidade de ruído maior que a necessária, reduzindo consideravelmente a utilidade dos dados providos. Diferente dos trabalhos existentes, este trabalho propõe uma abordagem que agrupa os indivíduos semelhantes, i.e. aqueles com maior probabilidade de estarem correlacionados, através de duas técnicas de agrupamento: o Agrupamento Espacial Baseado em Densidade de Aplicações com Ruído (DBSCAN) e o Modelo de Mistura de Gaussianas (GMM). A abordagem também emprega o mecanismo de Laplace, que computa o ruído a ser adicionado nas respostas anonimizadas, satisfazendo, assim, as propriedades da Privacidade Diferencial. Os resultados da avaliação experimental confirmam os benefícios da estratégia de agrupamento em termos de eficácia, para melhoramento da utilidade, e desempenho comparado aos trabalhos existentes. |
Abstract: | Differential Privacy is a mathematical model designed to hinder the process of distinguishing individuals’ records on statistical databases, while maximizing data utility. Although Differential Privacy has been widely used for protecting the privacy of individual users’ data, it was not designed to provide its guarantees for correlated data, since it considers, in essence, independence of records in the database. Existing techniques using Differential Privacy on correlated data attempt to use dependence parameters or correlation coefficients (such as Pearson or Spearman’s Rank) to measure the correlation among records in a dataset. However, they tend to introduce an amount of noise higher than the necessary in the query answer, decreasing the data utility. Different from the existing works, we propose an approach that clusters similar records, which are more likely to be correlated, based on Density-Based Spatial Clustering of Applications with Noise (DBSCAN) and Gaussian Mixture Model (GMM). Our approach also employs a correlated Laplace mechanism to compute the privatized answers, satisfying the privacy guarantees of Differential Privacy. The experimental evaluation exhibits the benefits of our clustering strategy in terms of effectiveness and efficiency, considering data utility and privacy. |
URI: | http://www.repositorio.ufc.br/handle/riufc/38796 |
Aparece nas coleções: | DCOMP - Dissertações defendidas na UFC |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
2018_dis_alcmendonça.pdf | 1,19 MB | Adobe PDF | Visualizar/Abrir |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.