Use este identificador para citar ou linkar para este item: http://repositorio.ufc.br/handle/riufc/79198
Tipo: Dissertação
Título: Uma abordagem baseada em similaridade empírica para o estimador de Kaplan-Meier
Título em inglês: An approach based on empirical similarity for the Kaplan-Meier estimator
Autor(es): Beneyto, Isabel de Castro
Orientador: Rêgo, Leandro Chaves
Coorientador: Pitombeira Neto, Anselmo Ramalho
Palavras-chave em português: Análise de sobrevivência;Similaridade Empírica;Estimador de Kaplan-Meier;Verossimilhança Empírica
Palavras-chave em inglês: Survival Analysis;Empirical Similarity;Kaplan-Meier Estimator;Empirical Likelihood
Data do documento: 22-Mai-2024
Citação: BENEYTO, Isabel de Castro. Uma abordagem baseada em similaridade empírica para o estimador de Kaplan-Meier. 2024. 88 f. Dissertação (Mestrado em Modelagem e Métodos Quantitativos) - Centro de Ciências, Universidade Federal do Ceará, 2024.
Resumo: O estimador de Kaplan-Meier é amplamente utilizado para estimar a curva de sobrevivência de uma população, incorporando a possibilidade de existência de dados censurados. Embora seja comum em estudos de sobrevida, especialmente em pesquisas clínicas e epidemiológicas, o estimador não leva diretamente em conta as covariáveis em suas previsões. Neste trabalho, propomos uma adaptação do estimador de Kaplan-Meier, denominada estimador de KaplanMeier baseado em similaridade. Essa adaptação inclui um quantificador de similaridade na fórmula padrão do estimador, permitindo a atribuição de pesos às covariáveis. Esses pesos são estimados a partir dos dados usando uma função de similaridade predefinida e são obtidos por meio da máxima verossimilhança empírica. Demonstramos a aplicação desse método para prever curvas de sobrevivência condicionais por meio de simulações em diferentes configurações e cenários. As análises foram feitas avaliando os pesos estimados, a variabilidade dos tempos de falha estimados através do desvio padrão e o desempenho do estimador em duas métricas de avaliação: índice de concordância (CI) e Brier Score (BS). Realizamos simulações usando duas formas para a função de similaridade: exponencial (EX) e fracionária (FR). Avaliamos o efeito da normalização dos pesos estimados, a escolha entre o tempo médio e mediano para estimar o tempo de falha a partir da curva de sobrevivência e diferentes medidas de distância para compor a função de similaridade. Para avaliar o desempenho do estimador em diferentes contextos, estimamos os pesos em diferentes amostras de dados, variando o tamanho e a taxa de censura. Finalmente, também realizamos comparações diretas entre o desempenho do estimador proposto e diversos métodos estatísticos e de aprendizado de máquina que são referência no contexto de análise de sobrevivência. Os resultados indicam que o estimador apresenta desempenho competitivo e consistente. Em comparação com os métodos estatísticos, o estimador proposto destaca-se, pois tem a vantagem de não assumir distribuição específica ou riscos proporcionais. Por outro lado, comparado aos algoritmos de aprendizado de máquina, alcançamos uma interpretação mais simples dos parâmetros estimados e evitamos os problemas de sobreajuste dos dados frequentemente associados a modelos excessivamente complexos.
Abstract: The Kaplan-Meier estimator is widely used for estimating the survival curve of a population, incorporating the possibility of censored data. Although common in survival studies, especially in clinical and epidemiological research, the estimator does not directly consider covariates in its predictions. In this work, we propose adapting the Kaplan-Meier estimator, called the similarity-based Kaplan-Meier estimator. This adaptation includes a similarity quantifier in the standard formula of the estimator, allowing for the assignment of weights to covariates. These weights are estimated from the data using a predefined similarity function and are obtained through empirical maximum likelihood. We demonstrate the application of this method to predict conditional survival curves through simulations in different settings and scenarios. Analyses were performed evaluating the estimated weights, the variability of estimated failure times through standard deviation, and the estimator’s performance on two evaluation metrics: concordance index (CI) and Brier Score (BS). We conducted simulations using two forms for the similarity function: exponential (EX) and fractional (FR). We evaluated the effect of normalizing the estimated weights, the choice between mean and median time to estimate failure time from the survival curve, and different distance measures to compose the similarity function. To assess the performance of the estimator in different contexts, we estimated the weights in different data samples, varying the size and censoring rate. Finally, we also performed direct comparisons between the performance of the proposed estimator and various statistical and machine learning methods that are referenced in the context of survival analysis. The results indicate that the estimator demonstrates competitive and consistent performance. Compared to statistical methods, the proposed estimator stands out because it does not assume a specific distribution or proportional hazards. On the other hand, compared to machine learning algorithms, we achieve a simpler interpretation of the estimated parameters and avoid the overfitting issues often associated with overly complex models.
URI: http://repositorio.ufc.br/handle/riufc/79198
ORCID do Orientador: https://orcid.org/0000-0002-4091-024X
Currículo Lattes do Orientador: http://lattes.cnpq.br/2004501146244643
ORCID do Coorientador: https://orcid.org/0000-0001-9234-8917
Currículo Lattes do Coorientador: http://lattes.cnpq.br/5661587413564713
Tipo de Acesso: Acesso Aberto
Aparece nas coleções:DEMA - Dissertações defendidas na UFC

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
2024_dis_icbeneyto.pdfDissertação Versão Final1,32 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.