Comparação entre Vision Transformers e U-Net com MobileNetV2 na segmentação de Exsudatos Lipídicos em imagens de retinografia

Almeida Neto, Pedro Florencio de

Use este identificador para citar ou linkar para este item: http://repositorio.ufc.br/handle/riufc/84826

Tipo:	TCC
Título:	Comparação entre Vision Transformers e U-Net com MobileNetV2 na segmentação de Exsudatos Lipídicos em imagens de retinografia
Autor(es):	Almeida Neto, Pedro Florencio de
Orientador:	Nogueira, Fabrício Gonzalez
Coorientador:	Albuquerque, Victor Hugo Costa de
Palavras-chave em português:	Retinopatia diabética;Visão computacional;Segmentação;CNN
Palavras-chave em inglês:	Diabetic retinopathy;Vision transformers;Computer vision;CNN;Segmentation
CNPq:	CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
Data do documento:	2026
Citação:	NETO, Pedro Florencio de Almeida. Comparação entre Vision Transformers e U-Net com MobileNetV2 na Segmentação de Exsudatos Lipídicos em Imagens de Retinografia. 2026. 79 f. Monografia (Graduação em Engenharia Elétrica) - Centro de Tecnologia, Universidade Federal do Ceará, Fortaleza, 2026.
Resumo:	A Retinopatia Diabética é uma doença que acomete pessoas com Diabetes, que está entre os principais motivos de perda de visão entre indivíduos de 20 a 75 anos no Brasil. Com o aumento do número de casos de Diabetes no país e no mundo, novas tecnologias têm emergido com o objetivo de diagnosticar, via exame de fundoscopia, os primeiros indícios da doença. Dentre os fatores que caracterizam a doença, a presença de partículas brancas de lipídios, intitulados exsudatos lipídicos, são comuns e visualmente evidentes em imagens da retina. Este trabalho investigou o desempenho de duas abordagens no campo da Visão Computacional para a segmentação semântica de exsudatos duros, visando a promoção de uma análise comparativa de uma abordagem clássica e outra estado-da-arte otimizada para Unidades de Processamento Gráfico (GPUs) móveis, tendo em vista o avanço da pesquisa e desenvolvimento de aparelhos portáteis baseados em smartphones para exames de fundo de olho. Foram aplicados os modelos U-Net com uso de MobileNetV2 como encoder de sua arquitetura e MobileViT, uma proposição de Vision Transformer (ViT), focada em aplicação em dispositivos móveis. A partir dos dois modelos, foi realizada a comparação de 3 métricas amplamente utilizadas em tarefas de segmentação semântica na Visão Computacional – o Coeficiente de Dice, a Interseção sobre União (IoU) e o tempo de inferência, considerando a GPU NVIDIA Tesla T4, disponibilizada pelo Google Colab. O MobileViT apresentou melhores resultados que a U-Net, com coeficiente de Dice superando em 49% o modelo baseado em Rede Neural Convolucional (CNN), além de apresentar uma superioridade significante no âmbito da eficiência computacional. Ainda que superior nas métricas, o modelo de ViT apresentou um overfitting, mesmo com aplicação de técnica de augmentation das imagens. Os resultados evidenciam a superioridade computacional do MobileViT, apontando este modelo pré-treinado como uma solução promissora para a segmentação semântica eficiente de imagens médicas.
Abstract:	Diabetic Retinopathy is a disease affecting people with Diabetes, which is among the leading causes of vision loss in individuals aged 20 to 75 in Brazil. With the rising number of Diabetes cases both nationally and globally, new technologies have emerged aiming to diagnose the early signs of the disease via fundoscopy examinations. Among the factors characterizing the disease, the presence of white lipid particles, termed lipid exudates, is common and visually evident in retinal images. This study investigated the performance of two approaches in the field of Computer Vision for the semantic segmentation of hard exudates, aiming to promote a comparative analysis between a classical approach and a state-of-the-art one optimized for mobile GPU, given the advancement in research and development of portable smartphone-based devices for fundus examinations. The U-Net model using MobileNetV2 as its architectural encoder, and MobileViT, a proposed Vision Transformer (ViT) focused on applications in mobile devices, were applied. Based on these two models, a comparison was performed using 3 metrics widely employed in Computer Vision semantic segmentation tasks – the Dice Coefficient, the Intersection over Union (IoU), and inference time, considering the Nvidia Tesla T4 GPU provided by Google Colab. MobileViT presented better results than U-Net, with a Dice coefficient surpassing the CNN-based model by 49%, in addition to demonstrating significant superiority in terms of computational efficiency. Although superior in metrics, the ViT model exhibited overfitting, even with the application of image augmentation techniques. The results evidence the computational superiority of MobileViT, pointing to this pre-trained model as a promising solution for the efficient semantic segmentation of medical images.
URI:	http://repositorio.ufc.br/handle/riufc/84826
ORCID do(s) Autor(es):	https://orcid.org/0009-0006-3928-2465
Currículo Lattes do(s) Autor(es):	http://lattes.cnpq.br/3043342272070609
ORCID do Orientador:	https://orcid.org/0000-0003-1935-8937
Currículo Lattes do Orientador:	http://lattes.cnpq.br/5826590609995005
Currículo Lattes do Coorientador:	http://lattes.cnpq.br/4186515742605446
Tipo de Acesso:	Acesso Aberto
Aparece nas coleções:	ENGENHARIA ELÉTRICA - Monografias

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
2026_tcc_pfdealmeidaneto.pdf.pdf		2,56 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas