Please use this identifier to cite or link to this item: http://repositorio.ufc.br/handle/riufc/74505
Type: Tese
Title: Matérn Kernel for incomplete data
Title in English: Matérn Kernel for incomplete data
Authors: Silva, Danilo Avilar
Advisor: Gomes, João Paulo Pordeus
Co-advisor: Mattos, César Lincoln Cavalcante
Keywords in Brazilian Portuguese : Dados ausentes;Modelo de mistura de gaussianas;Métodos de aproximação de funções;Kernel Matérn
Keywords in English : Missing data;Gaussian mixture model;Approximation methods for functions;Matérn Kernel
Knowledge Areas - CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Issue Date: 2023
Citation: SILVA, Danilo Avilar. Matérn Kernel for incomplete data. 2023. 104 f. Tese (Doutorado em Ciência da Computação) - Universidade Federal do Ceará, Fortaleza, 2023.
Abstract in Brazilian Portuguese: Problemas de aprendizado de máquina com dados incompletos são constantemente abordados em diversos domínios do mundo real. Métodos estatísticos que lidam com atributos ausentes caracterizam-se por suposições sobre a distribuição de dados através de uma função de densidade. Diante desse contexto, abordagens para utilização de métodos baseados em medidas de similaridade, tornam-se objetos de pesquisa bastante promissores, uma vez que esses métodos geralmente assumem que os dados são totalmente observados e não são equipados naturalmente para lidar com dados incompletos. Neste trabalho, serão propostos métodos para estimar o valor esperado do Kernel Matérn na presença de vetores de dados incompletos sem nenhuma etapa de pré-processamento. Os métodos Expected Matérn Kernel via Monte Carlo Method (EMK-MC) e Expected Matérn Kernel via Unscented Transform (EMK-UT) apresentam a capacidade de abordar o problema de estimativa do kernel estimando a transformação de interesse, ao invés de lançá-la em uma estrutura de pré-processamento. Para obter tais estimativas, os vetores incompletos são tratados como variáveis aleatórias contínuas e, a partir da suposição que a distância Euclidiana entre pontos de interesse seguem uma distribuição Nakagami, métodos de amostragem são utilizados para gerar pontos que dependem apenas da distribuição de interesse. Por meio de um modelo de mistura de Gaussianas, a distribuição dos dados é aproximada a partir da estimativa de máxima verossimilhança via algoritmo Expectation-Maximization, e ao mesmo tempo, estima os valores ausentes de forma iterativa. Isso permite que o modelo seja ajustado aos dados observados, levando em consideração a incerteza dos valores ausentes e as relações entre as variáveis. Os desempenhos dos métodos propostos são comparados à três métodos em conjuntos de dados reais e sintéticos. Em função da raiz do erro médio quadrático obtido ao computar a diferença entre o valor estimado do kernel e o valor real, a consistência do desempenho alcançado se mantém evidente na maioria dos cenários avaliados para bases do mundo real, sendo os métodos propostos EMK-MC e EMK-UT, melhores em cerca de 43% e 38% dos cenários avaliados, respectivamente. No que se refere aos cenários avaliados em conjuntos de dados sintéticos, as abordagens propostas são melhores em todos os cenários avaliados.
Abstract: Machine learning problems with incomplete data are constantly addressed in various real-world domains. Statistical methods dealing with missing attributes are characterized by assumptions about data distribution through a density function. In this context, approaches that utilize similarity-based methods, become very promising research objects since these methods generally assume that data is fully observed and are not naturally equipped to handle incomplete. In this work, methods will be proposed to estimate the expected value of the Matérn Kernel in the presence of incomplete data vectors without any preprocessing steps. The EMK-MC and EMK-UT methods demonstrate the capability to address the kernel estimation problem directly, meaning they estimate the transformation of interest instead of embedding it within a preprocessing framework. To obtain such estimates, incomplete vectors are treated as continuous random variables, and based on the assumption that the Euclidean distance between points of interest follows a Nakagami distribution, sampling methods are used to generate points that depend only on the distribution of interest. Through a Gaussian mixture model, the data distribution is approximated by maximum likelihood estimation via the Expectation-Maximization algorithm, while simultaneously iteratively estimating the missing values. This allows the model to be fitted to the observed data, considering the uncertainty of the missing values and the relationships between variables. The performances of the proposed methods are compared to three methods on real and synthetic datasets. Considering the root mean square error obtained by computing the difference between the estimated kernel value and the true value, the consistency of the achieved performance remains evident in the majority of the scenarios evaluated for real-world datasets. The proposed methods, EMK-MC and EMK-UT, are superior in approximately 43% and 38% of the evaluated scenarios, respectively. As for the scenarios evaluated in synthetic datasets, the proposed approaches outperform all evaluated scenarios.
URI: http://repositorio.ufc.br/handle/riufc/74505
Author's Lattes: http://lattes.cnpq.br/9055072082719616
Advisor's Lattes: http://lattes.cnpq.br/9553770402705512
Co-advisor's Lattes: http://lattes.cnpq.br/2445571161029337
Access Rights: Acesso Aberto
Appears in Collections:DCOMP - Teses defendidas na UFC

Files in This Item:
File Description SizeFormat 
2023_tese_dasilva.pdf1,66 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.