Avaliação de técnicas de geração de dados sintéticos tabulares em tarefas de classificação

Barros, Caio Martim

Use este identificador para citar ou linkar para este item: http://repositorio.ufc.br/handle/riufc/81748

Tipo:	TCC
Título:	Avaliação de técnicas de geração de dados sintéticos tabulares em tarefas de classificação
Autor(es):	Barros, Caio Martim
Orientador:	Mattos, César Lincoln Cavalcante
Palavras-chave em português:	Synthetic data vault (SDV);Dados sintéticos tabulares;Aprendizado de máquina;IA generativa;Adição de dados
Palavras-chave em inglês:	Synthetic data vault (SDV);Synthetic tabular data;Machine learning;Generative AI;Data augmentation
CNPq:	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Data do documento:	2023
Citação:	BARROS, Caio Martim. Avaliação de técnicas de geração de dados sintéticos tabulares em tarefas de classificação. 2025. Trabalho de Conclusão de Curso (Bacharelado em Engenharia de Computação) – Universidade Federal do Ceará, Fortaleza, 2023.
Resumo:	A geração de dados sintéticos desempenha um papel crucial em aprendizado de máquina em diversos domínios. Este estudo explora o Synthetic Data Vault (SDV), uma ferramenta que utiliza métodos de aprendizado de máquina para produzir dados sintéticos de alta qualidade. Para isso, desenvolve-se uma pipeline de dados completa, a fim de assegurar a persistência automatizada e correta dos dados de treino e teste, que abrange a geração, aplicação e avaliação dos dados sintéticos em algoritmos de Machine Learning (ML) para classificação. A eficácia destas etapas são verificadas por meio de comparações entre diferentes estratégias para as etapas de criação de modelos geradores de dados sintéticos e seu uso em modelos de classificação, utilizando métricas adequadas para cada abordagem. Dessa forma, ao empregar o SDV em diferentes conjuntos de dados, esta pesquisa evidencia a relevância e a utilidade da criação e uso de dados artificiais, possibilitando análises mais robustas e modelos de aprendizado de máquina mais precisos. Assim, o SDV oferece uma solução promissora para enfrentar o problema de escassez, balanceamento e privacidade de dados, impulsionando a pesquisa e as aplicações na área.
Abstract:	The generation of synthetic data plays a crucial role in machine learning across various domains. This study explores SDV, a tool that utilizes machine learning methods to produce high-quality synthetic data. To achieve this, a complete data pipeline is developed to ensure the automated and accurate persistence of training and testing data, covering the generation, application, and evaluation of synthetic data in ML algorithms for classification. The effectiveness of these steps is verified through comparisons between different strategies for creating synthetic data generator models and their use in classification models, using metrics suitable for each approach. By employing SDV on different datasets, this research highlights the relevance and utility of creating and using artificial data, enabling more robust analyses and more accurate machine learning models. Thus, SDV provides a promising solution to address the challenges of data scarcity, imbalance, and privacy, driving research and applications in the field.
URI:	http://repositorio.ufc.br/handle/riufc/81748
Currículo Lattes do(s) Autor(es):	http://lattes.cnpq.br/8786631279167065
ORCID do Orientador:	https://orcid.org/0000-0002-2404-3625
Currículo Lattes do Orientador:	http://lattes.cnpq.br/2445571161029337
Tipo de Acesso:	Acesso Aberto
Aparece nas coleções:	ENGENHARIA DE COMPUTAÇÃO - Monografias

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
2023_tcc_cmbarros.pdf		2,02 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas