Use este identificador para citar ou linkar para este item: http://repositorio.ufc.br/handle/riufc/83226
Tipo: Tese
Título: Answering differentially private multi-dimensional queries
Título em inglês: Answering differentially private multi-dimensional queries
Autor(es): Costa Filho, José Serafim da
Orientador: Machado, Javam de Castro
Palavras-chave em português: Privacidade diferencial;Dados multidimensionais;Correlações entre atributos;Resposta a consultas
Palavras-chave em inglês: Differential privacy;Multi-dimensional data;Attribute correlations;Query answering
CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Data do documento: 2025
Citação: COSTA FILHO, José Serafim da. Answering differentially private multi-dimensional queries. 2025. 150 f. Tese (Doutorado em Ciência da Computação) - Universidade Federal do Ceará, Fortaleza, 2025.
Resumo: Fornecer respostas com garantia de privacidade para consultas por intervalo em múltiplas dimensões é um problema fundamental que tem atraído significativa atenção nos últimos anos, dado que esse tipo de consulta constitui uma operação central em análise de dados. No entanto, quatro principais desafios técnicos permanecem: (i) capturar de forma eficaz as correlações entre atributos, (ii) mitigar a maldição da dimensionalidade, (iii) lidar com domínios de atributos extensos e (iv) acomodar requisitos heterogêneos de privacidade entre os usuários. Métodos existentes falham em abordar todos esses desafios de maneira abrangente. Nossa abordagem baseia-se na ideia de utilizar grades multidimensionais. Especificamente, os dados dos usuários são mapeados em estruturas de grade, que são então perturbadas para garantir privacidade antes de serem transmitidas a um agregador. O agregador utiliza as informações perturbadas das grades para estimar a distribuição subjacente dos dados e, em seguida, responder às consultas por intervalo. Existe um trade-off inerente à granularidade da grade: grades mais finas amplificam o erro induzido pelo ruído, enquanto grades mais grosseiras introduzem erro por viés. Para superar essas limitações, propomos uma otimização na construção das grades que considera múltiplos fatores com o objetivo de melhorar a acurácia. Além disso, desenvolvemos um modelo de correlação para identificar como os atributos se relacionam, permitindo a utilização de um número reduzido de grades estrategicamente construídas, o que melhora a razão sinal-ruído. Também incorporamos um novo procedimento de otimização que leva em conta características específicas da carga de trabalho. Esta etapa determina a atribuição ideal de usuários às grades, minimizando o erro esperado total. Por fim, combinamos diferentes estimadores com garantia diferencial de privacidade para melhorar a precisão na resposta a consultas por intervalo multidimensionais. Validamos nossa abordagem por meio de extensos experimentos em conjuntos de dados reais e sintéticos, demonstrando que nosso método supera significativamente as técnicas mais avançadas disponíveis na literatura.
Abstract: Providing privacy-preserving answers to multi-dimensional range queries is a critical problem that has attracted significant attention in recent years, given that range queries constitute a fundamental operation in data analysis. However, four principal technical challenges remain: (i) effectively capturing correlations among attributes, (ii) mitigating the curse of dimensionality, (iii) handling large attribute domains, and (iv) accommodating heterogeneous user privacy requirements. Existing methods fail to comprehensively address all these challenges. We build our approach on the idea of using multi-dimensional grids. Specifically, users’ data are mapped onto grid structures, which are then perturbed to ensure privacy before being transmitted to an aggregator. The aggregator utilizes the perturbed grid information to estimate the underlying data distribution and subsequently answer range queries. There exists a trade-off in grid granularity: finer grids amplify noise-induced error, whereas coarser grids introduce bias-induced error. To overcome these limitations, we propose a grid construction optimization that considers multiple factors to enhance accuracy. In addition, we build a correlation model to determine how attributes are correlated, enabling the use of fewer, strategically constructed grids, which improves the signal-to-noise ratio. Also, we incorporate a novel optimization procedure that accounts for workload-specific characteristics. This step finds the user-to-grid assignment that minimizes the total expected error. Finally, we combine different differentially private estimators to improve the accuracy when answering multi-dimensional range queries. We validate our approach through extensive experiments on both real-world and synthetic datasets, demonstrating that our method significantly outperforms existing state-of-the-art techniques.
URI: http://repositorio.ufc.br/handle/riufc/83226
ORCID do(s) Autor(es): 0000-0002-8452-1975
Currículo Lattes do(s) Autor(es): http://lattes.cnpq.br/5014333194028146
ORCID do Orientador: https://orcid.org/0000-0002-8430-9421
Currículo Lattes do Orientador: http://lattes.cnpq.br/9884980518986225
Tipo de Acesso: Acesso Aberto
Aparece nas coleções:DCOMP - Teses defendidas na UFC

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
2025_tese_jscostafilho.pdf2,73 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.