VLBODY — Vision-learned body composition estimator: uma abordagem profunda para análise visual da composição corporal

Ivo, Roberto Fernandes

Use este identificador para citar ou linkar para este item: http://repositorio.ufc.br/handle/riufc/85315

Tipo:	Tese
Título:	VLBODY — Vision-learned body composition estimator: uma abordagem profunda para análise visual da composição corporal
Título em inglês:	VLBODY — Vision-learned body composition estimator: a deep approach for visual analysis of body composition
Autor(es):	Ivo, Roberto Fernandes
Orientador:	Rebouças Filho, Pedro Pedrosa
Coorientador:	Medeiros, Aldisio Gonçalves
Palavras-chave em português:	Composição corporal;Visão por computador;Aprendizagem profunda;Modelos de linguagem visual;Distribuição da gordura corporal
Palavras-chave em inglês:	Body composition;Computer vision;Deep learning;Vision-language models;Body fat distribution
CNPq:	CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
Data do documento:	2025
Citação:	IVO, Roberto Fernandes. VLBODY — Vision-learned body composition estimator: uma abordagem profunda para análise visual da composição corporal. 2025. 104 f. Tese (Doutorado em Engenharia de Teleinformática) – Centro de Tecnologia, Universidade Federal do Ceará, Fortaleza, 2025.
Resumo:	A avaliação precisa da composição corporal é essencial para o monitoramento do estado nutricional, do desempenho físico e do risco metabólico de indivíduos. Métodos tradicionais, como a absorciometria de dupla emissão de raios X (DXA), embora altamente precisos, apresentam limitações relacionadas ao custo, à acessibilidade e à aplicação em larga escala. Nesse contexto, esta tese propõe o VLBODY — Vision-Learned Body Composition Estimator, uma metodologia de aprendizado visual profundo voltada à estimativa não invasiva do percentual de gordura corporal a partir de imagens bidimensionais. O método é estruturado em um pipeline sequencial composto por três etapas principais: (A) detecção, responsável pela identificação automática da região de interesse (ROI) correspondente ao corpo humano na imagem; (B) segmentação, voltada ao isolamento preciso da silhueta corporal e à remoção de ruídos de fundo; e (C) estimativa do percentual de gordura corporal, que utiliza um codificador visual baseado em princípios de arquiteturas do tipo Vision–Language Models (VLMs) para extrair representações morfológicas da ROI e convertê-las, por meio de uma regressão, em um valor contínuo de percentual de gordura corporal. Essa arquitetura unificada integra todo o processo, desde a entrada da imagem até a predição final, assegurando coerência entre a extração de características e a inferência quantitativa. Foram implementadas quatro variações arquiteturais (VLBODY-S, VLBODY-M, VLBODY-L e VLBODY-X), com diferentes profundidades e dimensões latentes, a fim de investigar o impacto da capacidade representacional no desempenho preditivo. O método foi validado no conjunto de dados BCDB23, composto por 1.044 participantes, cujas imagens padronizadas foram comparadas às medições de referência obtidas por DXA. As variantes VLBODY-S e VLBODY-X apresentaram os melhores resultados, alcançando coeficientes de determinação (R²) superiores a 0,8 e erros médios absolutos (MAE) inferiores a 3 pontos percentuais, superando métodos tradicionais baseados em medidas antropométricas e se aproximando de técnicas de última geração. Além do desempenho quantitativo, o VLBODY incorporou um mecanismo de interpretabilidade baseado em mapas de relevância espacial, que destacam as regiões corporais de maior influência nas estimativas. Esses resultados indicam que o VLBODY constitui uma alternativa promissora para a avaliação não invasiva da composição corporal, combinando precisão, interpretabilidade e potencial de aplicação em contextos clínicos e populacionais.
Abstract:	Accurate assessment of body composition is essential for monitoring nutritional status, physical performance, and metabolic risk in individuals. Traditional methods, such as dual-energy X-ray absorptiometry (DXA), although highly accurate, present limitations related to cost, accessibility, and large-scale applicability. In this context, this thesis proposes VLBODY — Vision-Learned Body Composition Estimator, a deep visual learning methodology designed for the noninvasive estimation of body fat percentage from two-dimensional images. The proposed method is organized as a sequential pipeline comprising three main stages: (A) detection, responsible for the automatic identification of the region of interest (ROI) corresponding to the human body in the image; (B) segmentation, aimed at the precise isolation of the body silhouette and removal of background noise; and (C) body fat estimation, which relies on the visual encoding component of Vision–Language Model (VLM) architectures to extract morphological representations from the ROI and, through a regression process, convert them into continuous body fat percentage values. This unified architecture integrates the entire process, from image input to final prediction, ensuring coherence between feature extraction and quantitative inference. Four architectural variants (VLBODY-S, VLBODY-M, VLBODY-L, and VLBODY-X) were implemented, with different depths and latent dimensions, to investigate the impact of representational capacity on predictive performance. The method was validated on the BCDB23 dataset, composed of 1,044 participants whose standardized images were compared against DXA reference measurements. The VLBODY-S and VLBODY-X variants achieved the best results, reaching coefficients of determination (R²) above 0.8 and mean absolute errors (MAE) below 3 percentage points, outperforming traditional anthropometric-based methods and approaching state-of-the-art techniques. In addition to quantitative performance, VLBODY incorporates an interpretability mechanism based on spatial relevance maps, highlighting the body regions that most influence predictions. These results indicate that VLBODY represents a promising alternative for noninvasive body composition assessment, combining accuracy, interpretability, and potential applicability in both clinical and population-based contexts.
Descrição:	Este documento está disponível online com base na Portaria no 348, de 08 de dezembro de 2022, disponível em: https://biblioteca.ufc.br/wp-content/uploads/2022/12/portaria348-2022.pdf, que autoriza a digitalização e a disponibilização no Repositório Institucional (RI) da coleção retrospectiva de TCC, dissertações e teses da UFC, sem o termo de anuência prévia dos autores. Em caso de trabalhos com pedidos de patente e/ou de embargo, cabe, exclusivamente, ao autor(a) solicitar a restrição de acesso ou retirada de seu trabalho do RI, mediante apresentação de documento comprobatório à Direção do Sistema de Bibliotecas.
URI:	http://repositorio.ufc.br/handle/riufc/85315
ORCID do(s) Autor(es):	https://orcid.org/0009-0004-4925-4981
Currículo Lattes do(s) Autor(es):	http://lattes.cnpq.br/5422939380475036
ORCID do Orientador:	https://orcid.org/0000-0002-1878-5489
Currículo Lattes do Orientador:	http://lattes.cnpq.br/5422939380475036
Currículo Lattes do Coorientador:	http://lattes.cnpq.br/8841156817863019
Tipo de Acesso:	Acesso Aberto
Aparece nas coleções:	DETE - Teses defendidas na UFC

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
2025_tese_rfivo.pdf	Tese	3,82 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas