Por favor, use este identificador para citar o enlazar este ítem: http://repositorio.ufc.br/handle/riufc/81748
Tipo: TCC
Título : Avaliação de técnicas de geração de dados sintéticos tabulares em tarefas de classificação
Autor : Barros, Caio Martim
Tutor: Mattos, César Lincoln Cavalcante
Palabras clave en portugués brasileño: Synthetic data vault (SDV);Dados sintéticos tabulares;Aprendizado de máquina;IA generativa;Adição de dados
Palabras clave en inglés: Synthetic data vault (SDV);Synthetic tabular data;Machine learning;Generative AI;Data augmentation
Áreas de Conocimiento - CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Fecha de publicación : 2023
Citación : BARROS, Caio Martim. Avaliação de técnicas de geração de dados sintéticos tabulares em tarefas de classificação. 2025. Trabalho de Conclusão de Curso (Bacharelado em Engenharia de Computação) – Universidade Federal do Ceará, Fortaleza, 2023.
Resumen en portugués brasileño: A geração de dados sintéticos desempenha um papel crucial em aprendizado de máquina em diversos domínios. Este estudo explora o Synthetic Data Vault (SDV), uma ferramenta que utiliza métodos de aprendizado de máquina para produzir dados sintéticos de alta qualidade. Para isso, desenvolve-se uma pipeline de dados completa, a fim de assegurar a persistência automatizada e correta dos dados de treino e teste, que abrange a geração, aplicação e avaliação dos dados sintéticos em algoritmos de Machine Learning (ML) para classificação. A eficácia destas etapas são verificadas por meio de comparações entre diferentes estratégias para as etapas de criação de modelos geradores de dados sintéticos e seu uso em modelos de classificação, utilizando métricas adequadas para cada abordagem. Dessa forma, ao empregar o SDV em diferentes conjuntos de dados, esta pesquisa evidencia a relevância e a utilidade da criação e uso de dados artificiais, possibilitando análises mais robustas e modelos de aprendizado de máquina mais precisos. Assim, o SDV oferece uma solução promissora para enfrentar o problema de escassez, balanceamento e privacidade de dados, impulsionando a pesquisa e as aplicações na área.
Abstract: The generation of synthetic data plays a crucial role in machine learning across various domains. This study explores SDV, a tool that utilizes machine learning methods to produce high-quality synthetic data. To achieve this, a complete data pipeline is developed to ensure the automated and accurate persistence of training and testing data, covering the generation, application, and evaluation of synthetic data in ML algorithms for classification. The effectiveness of these steps is verified through comparisons between different strategies for creating synthetic data generator models and their use in classification models, using metrics suitable for each approach. By employing SDV on different datasets, this research highlights the relevance and utility of creating and using artificial data, enabling more robust analyses and more accurate machine learning models. Thus, SDV provides a promising solution to address the challenges of data scarcity, imbalance, and privacy, driving research and applications in the field.
URI : http://repositorio.ufc.br/handle/riufc/81748
Lattes del autor: http://lattes.cnpq.br/8786631279167065
ORCID del tutor: https://orcid.org/0000-0002-2404-3625
Lattes del tutor: http://lattes.cnpq.br/2445571161029337
Derechos de acceso: Acesso Aberto
Aparece en las colecciones: ENGENHARIA DE COMPUTAÇÃO - Monografias

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
2023_tcc_cmbarros.pdf2,02 MBAdobe PDFVisualizar/Abrir


Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.