Use este identificador para citar ou linkar para este item:
http://repositorio.ufc.br/handle/riufc/81748| Tipo: | TCC |
| Título: | Avaliação de técnicas de geração de dados sintéticos tabulares em tarefas de classificação |
| Autor(es): | Barros, Caio Martim |
| Orientador: | Mattos, César Lincoln Cavalcante |
| Palavras-chave em português: | Synthetic data vault (SDV);Dados sintéticos tabulares;Aprendizado de máquina;IA generativa;Adição de dados |
| Palavras-chave em inglês: | Synthetic data vault (SDV);Synthetic tabular data;Machine learning;Generative AI;Data augmentation |
| CNPq: | CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
| Data do documento: | 2023 |
| Citação: | BARROS, Caio Martim. Avaliação de técnicas de geração de dados sintéticos tabulares em tarefas de classificação. 2025. Trabalho de Conclusão de Curso (Bacharelado em Engenharia de Computação) – Universidade Federal do Ceará, Fortaleza, 2023. |
| Resumo: | A geração de dados sintéticos desempenha um papel crucial em aprendizado de máquina em diversos domínios. Este estudo explora o Synthetic Data Vault (SDV), uma ferramenta que utiliza métodos de aprendizado de máquina para produzir dados sintéticos de alta qualidade. Para isso, desenvolve-se uma pipeline de dados completa, a fim de assegurar a persistência automatizada e correta dos dados de treino e teste, que abrange a geração, aplicação e avaliação dos dados sintéticos em algoritmos de Machine Learning (ML) para classificação. A eficácia destas etapas são verificadas por meio de comparações entre diferentes estratégias para as etapas de criação de modelos geradores de dados sintéticos e seu uso em modelos de classificação, utilizando métricas adequadas para cada abordagem. Dessa forma, ao empregar o SDV em diferentes conjuntos de dados, esta pesquisa evidencia a relevância e a utilidade da criação e uso de dados artificiais, possibilitando análises mais robustas e modelos de aprendizado de máquina mais precisos. Assim, o SDV oferece uma solução promissora para enfrentar o problema de escassez, balanceamento e privacidade de dados, impulsionando a pesquisa e as aplicações na área. |
| Abstract: | The generation of synthetic data plays a crucial role in machine learning across various domains. This study explores SDV, a tool that utilizes machine learning methods to produce high-quality synthetic data. To achieve this, a complete data pipeline is developed to ensure the automated and accurate persistence of training and testing data, covering the generation, application, and evaluation of synthetic data in ML algorithms for classification. The effectiveness of these steps is verified through comparisons between different strategies for creating synthetic data generator models and their use in classification models, using metrics suitable for each approach. By employing SDV on different datasets, this research highlights the relevance and utility of creating and using artificial data, enabling more robust analyses and more accurate machine learning models. Thus, SDV provides a promising solution to address the challenges of data scarcity, imbalance, and privacy, driving research and applications in the field. |
| URI: | http://repositorio.ufc.br/handle/riufc/81748 |
| Currículo Lattes do(s) Autor(es): | http://lattes.cnpq.br/8786631279167065 |
| ORCID do Orientador: | https://orcid.org/0000-0002-2404-3625 |
| Currículo Lattes do Orientador: | http://lattes.cnpq.br/2445571161029337 |
| Tipo de Acesso: | Acesso Aberto |
| Aparece nas coleções: | ENGENHARIA DE COMPUTAÇÃO - Monografias |
Arquivos associados a este item:
| Arquivo | Descrição | Tamanho | Formato | |
|---|---|---|---|---|
| 2023_tcc_cmbarros.pdf | 2,02 MB | Adobe PDF | Visualizar/Abrir |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.