Use este identificador para citar ou linkar para este item: http://repositorio.ufc.br/handle/riufc/83047
Tipo: TCC
Título: Graph neural network for gene-disease link prediction
Autor(es): Lira, Lucas Vitoriano de Queiroz
Orientador: Albuquerque, Victor Hugo Costa de
Palavras-chave em português: Redes neurais em grafos GNN;Previsão de conexões;Completude de grafos de conhecimento;Associações gene-doença;Bioinformática;PyTorch geometric;Grafos homogêneos
Palavras-chave em inglês: Graph neural networks GNN;Link prediction;Knowledge graph completion;Gene-disease associations;Bioinformatics;PyTorch geometric;Homogeneous graphs
CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Data do documento: 2025
Citação: LIRA, Lucas Vitoriano de Queiroz. Graph neural network for gene-disease link prediction. 2025. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) - Universidade Federal do Ceará, Fortaleza, 2025.
Resumo: Este estudo explora o uso de Redes Neurais em Grafos GNN para identificar associações gene-doença por meio da completude de um Grafo de Conhecimento derivado da Stanford Biomedical Network Dataset Collection, que inclui originalmente mais de 21.000 conexões. Ao representar genes e doenças como nós, e seus relacionamentos como arestas, as GNNs permitem descobrir padrões complexos e prever novas associações. Esta abordagem não apenas revela conexões gene-doença anteriormente desconhecidas, mas também oferece novos insights sobre a base molecular das doenças. A rede de associação gene-doença específica analisada compreende 7.813 nós e 21.357 arestas. O pré-processamento inicial dos dados envolveu a padronização de características de doenças e sua augmentação utilizando Modelos de Linguagem de Grande Escala Large Language Model (LLM), juntamente com a melhoria das características genéticas a partir da análise de dados de localização cromossômica. A metodologia evoluiu de modelos de grafos heterogêneos para um foco principal em representações homogêneas, unificando tipos de nós e adaptando arquiteturas GNN. GNNs personalizadas, empregando backbones como GraphConv, SAGEConv e GATv2Conv, foram desenvolvidas, utilizando primariamente um decodificador baseado em Perceptron Multicamadas MLP para a previsão de conexões. Esta abordagem refinada, particularmente com modelos GNN homogêneos mais simples, demonstrou generalização significativamente melhorada e alto desempenho de validação, alcançando um AUC-PR de 0,991 e um F1-Score de 0,950, superando eficazmente os desafios iniciais de overfitting. A avaliação emprega métricas abrangentes, incluindo AUC-ROC, AUC-PR, F1-Score e Precisão@10. A pesquisa ressalta o forte potencial de GNNs personalizadas para descobrir novas conexões gene-doença, com trabalhos em andamento focados em maior otimização e interpretabilidade.
Abstract: This study explores the use of Graph Neural Networks Graph Neural Network (GNN) for identifying gene-disease associations through a Knowledge Graph derived from the Stanford Biomedical Network Dataset Collection, which includes originally over 21,000 connections. By representing genes and diseases as nodes, and their relationships as edges, we enable GNNs to uncover complex patterns and predict novel associations. This approach not only reveals previously unknown gene-disease links but also offers fresh insights into the molecular basis of diseases. The specific disease-gene association network analyzed comprises 7,813 nodes and 21,357 edges. Initial data preprocessing involved standardizing disease features and augmenting them using Large Language Models for attributes like disease class, alongside enhancing gene features by parsing chromosomal location data. The methodology evolved from heterogeneous graph models to a primary focus on homogeneous graph representations, unifying node types and their 512-dimensional features. Custom GNNs, employing backbones such as GraphConv, SAGEConv, and GATv2Conv, were developed, primarily utilizing a Multi-Layer Perceptron Multi-Layer Perceptron (MLP) based decoder for link prediction. This refined approach, particularly with simpler homogeneous GNN models, demonstrated significantly improved generalization and high validation performance, achieving an AUC-PR of 0.991 and an F1-Score of 0.950, effectively addressing earlier overfitting challenges. Evaluation employs comprehensive metrics including AUC-ROC, AUC-PR, F1-Score, and Precision@10. The research underscores the strong potential of tailored GNNs for discovering novel gene-disease links, with ongoing work focusing on further optimization and interpretability.
URI: http://repositorio.ufc.br/handle/riufc/83047
Currículo Lattes do(s) Autor(es): http://lattes.cnpq.br/4490505440891920
Currículo Lattes do Orientador: http://lattes.cnpq.br/4186515742605446
Tipo de Acesso: Acesso Aberto
Aparece nas coleções:ENGENHARIA DE COMPUTAÇÃO - Monografias

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
2025_tcc_lvdeqlira.pdf18,81 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.