Please use this identifier to cite or link to this item: http://repositorio.ufc.br/handle/riufc/79198
Type: Dissertação
Title: Uma abordagem baseada em similaridade empírica para o estimador de Kaplan-Meier
Title in English: An approach based on empirical similarity for the Kaplan-Meier estimator
Authors: Beneyto, Isabel de Castro
Advisor: Rêgo, Leandro Chaves
Co-advisor: Pitombeira Neto, Anselmo Ramalho
Keywords in Brazilian Portuguese : Análise de sobrevivência;Similaridade Empírica;Estimador de Kaplan-Meier;Verossimilhança Empírica
Keywords in English : Survival Analysis;Empirical Similarity;Kaplan-Meier Estimator;Empirical Likelihood
Issue Date: 22-May-2024
Citation: BENEYTO, Isabel de Castro. Uma abordagem baseada em similaridade empírica para o estimador de Kaplan-Meier. 2024. 88 f. Dissertação (Mestrado em Modelagem e Métodos Quantitativos) - Centro de Ciências, Universidade Federal do Ceará, 2024.
Abstract in Brazilian Portuguese: O estimador de Kaplan-Meier é amplamente utilizado para estimar a curva de sobrevivência de uma população, incorporando a possibilidade de existência de dados censurados. Embora seja comum em estudos de sobrevida, especialmente em pesquisas clínicas e epidemiológicas, o estimador não leva diretamente em conta as covariáveis em suas previsões. Neste trabalho, propomos uma adaptação do estimador de Kaplan-Meier, denominada estimador de KaplanMeier baseado em similaridade. Essa adaptação inclui um quantificador de similaridade na fórmula padrão do estimador, permitindo a atribuição de pesos às covariáveis. Esses pesos são estimados a partir dos dados usando uma função de similaridade predefinida e são obtidos por meio da máxima verossimilhança empírica. Demonstramos a aplicação desse método para prever curvas de sobrevivência condicionais por meio de simulações em diferentes configurações e cenários. As análises foram feitas avaliando os pesos estimados, a variabilidade dos tempos de falha estimados através do desvio padrão e o desempenho do estimador em duas métricas de avaliação: índice de concordância (CI) e Brier Score (BS). Realizamos simulações usando duas formas para a função de similaridade: exponencial (EX) e fracionária (FR). Avaliamos o efeito da normalização dos pesos estimados, a escolha entre o tempo médio e mediano para estimar o tempo de falha a partir da curva de sobrevivência e diferentes medidas de distância para compor a função de similaridade. Para avaliar o desempenho do estimador em diferentes contextos, estimamos os pesos em diferentes amostras de dados, variando o tamanho e a taxa de censura. Finalmente, também realizamos comparações diretas entre o desempenho do estimador proposto e diversos métodos estatísticos e de aprendizado de máquina que são referência no contexto de análise de sobrevivência. Os resultados indicam que o estimador apresenta desempenho competitivo e consistente. Em comparação com os métodos estatísticos, o estimador proposto destaca-se, pois tem a vantagem de não assumir distribuição específica ou riscos proporcionais. Por outro lado, comparado aos algoritmos de aprendizado de máquina, alcançamos uma interpretação mais simples dos parâmetros estimados e evitamos os problemas de sobreajuste dos dados frequentemente associados a modelos excessivamente complexos.
Abstract: The Kaplan-Meier estimator is widely used for estimating the survival curve of a population, incorporating the possibility of censored data. Although common in survival studies, especially in clinical and epidemiological research, the estimator does not directly consider covariates in its predictions. In this work, we propose adapting the Kaplan-Meier estimator, called the similarity-based Kaplan-Meier estimator. This adaptation includes a similarity quantifier in the standard formula of the estimator, allowing for the assignment of weights to covariates. These weights are estimated from the data using a predefined similarity function and are obtained through empirical maximum likelihood. We demonstrate the application of this method to predict conditional survival curves through simulations in different settings and scenarios. Analyses were performed evaluating the estimated weights, the variability of estimated failure times through standard deviation, and the estimator’s performance on two evaluation metrics: concordance index (CI) and Brier Score (BS). We conducted simulations using two forms for the similarity function: exponential (EX) and fractional (FR). We evaluated the effect of normalizing the estimated weights, the choice between mean and median time to estimate failure time from the survival curve, and different distance measures to compose the similarity function. To assess the performance of the estimator in different contexts, we estimated the weights in different data samples, varying the size and censoring rate. Finally, we also performed direct comparisons between the performance of the proposed estimator and various statistical and machine learning methods that are referenced in the context of survival analysis. The results indicate that the estimator demonstrates competitive and consistent performance. Compared to statistical methods, the proposed estimator stands out because it does not assume a specific distribution or proportional hazards. On the other hand, compared to machine learning algorithms, we achieve a simpler interpretation of the estimated parameters and avoid the overfitting issues often associated with overly complex models.
URI: http://repositorio.ufc.br/handle/riufc/79198
Advisor's ORCID: https://orcid.org/0000-0002-4091-024X
Advisor's Lattes: http://lattes.cnpq.br/2004501146244643
Co-advisor's ORCID: https://orcid.org/0000-0001-9234-8917
Co-advisor's Lattes: http://lattes.cnpq.br/5661587413564713
Access Rights: Acesso Aberto
Appears in Collections:DEMA - Dissertações defendidas na UFC

Files in This Item:
File Description SizeFormat 
2024_dis_icbeneyto.pdfDissertação Versão Final1,32 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.