Use este identificador para citar ou linkar para este item:
http://repositorio.ufc.br/handle/riufc/83045| Tipo: | TCC |
| Título: | Classificação uni e multirrótulo de sentimentos em textos curtos |
| Autor(es): | Santos, John Vasconcelos dos |
| Orientador: | Soares, José Marques |
| Palavras-chave em português: | Classificação multirrótulo;Emoções;Dados sintéticos;Processamento de linguagem natural;Aprendizado de máquina |
| Palavras-chave em inglês: | Multi-label classification;Emotions;Synthetic data;Natural language processing;Machine learning |
| CNPq: | CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
| Data do documento: | 2025 |
| Citação: | SANTOS, John Vasconcelos dos. Classificação uni e multirrótulo de sentimentos em textos curtos. 2025. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) - Universidade Federal do Ceará, Fortaleza, 2025. |
| Resumo: | Neste trabalho, investiga-se a eficácia de diferentes modelos de classificação na tarefa de identificar emoções em textos curtos extraídos de redes sociais, adotando abordagens uni e multirrótulo. Para isso, foi construído um corpus composto por 2209 comentários reais (dataset natural) e 1669 amostras geradas artificialmente por LLMs (dataset sintético), com o objetivo de mitigar o desbalanceamento de classes. Foram avaliados modelos tradicionais como Support Vector Machine (SVM), Perceptron Multicamadas, BERT e uma LLM (ChatGPT), considerando tanto classificações unirrótulo quanto multirrótulo. As amostras foram submetidas a tratamentos lexicais e tokenização, e os modelos treinados com diferentes composições dos dados. Os resultados indicam que o uso de dados sintéticos e técnicas de pré-processamento melhoraram significativamente a acurácia e generalização dos modelos, especialmente para classes minoritárias. O modelo BERT atingiu a melhor performance na abordagem unirrótulo (acurácia de 73,09%), enquanto a LLM obteve o melhor desempenho na classificação multirrótulo (Índice de Jaccard de 69,91%). Os achados destacam o potencial da combinação de dados sintéticos e pré-processamento na melhoria da classificação emocional em contextos com dados limitados e desbalanceados. |
| Abstract: | This work investigates the effectiveness of different classification models in the task of identifying emotions in short texts extracted from social media, adopting both single-label and multi-label approaches. To this end, a corpus was constructed comprising 2,209 real comments (natural dataset) and 1,669 samples artificially generated by LLMs (synthetic dataset), aiming to mitigate class imbalance. Traditional models such as Support Vector Machine (SVM), Multilayer Perceptron, BERT, and a Large Language Model (ChatGPT) were evaluated, considering both single-label and multi-label classifications. The samples underwent lexical preprocessing and tokenization, and the models were trained with different data compositions. The results indicate that the use of synthetic data and preprocessing techniques significantly improved model accuracy and generalization, especially for minority classes. The BERT model achieved the best performance in the single-label approach (accuracy of 73.09%), while the LLM obtained the best performance in the multi-label classification (Jaccard Index of 69.91%). The findings highlight the potential of combining synthetic data and preprocessing techniques to improve emotion classification in contexts with limited and imbalanced data. |
| URI: | http://repositorio.ufc.br/handle/riufc/83045 |
| Currículo Lattes do(s) Autor(es): | http://lattes.cnpq.br/4996190624134192 |
| ORCID do Orientador: | https://orcid.org/0000-0002-5111-5794 |
| Currículo Lattes do Orientador: | http://lattes.cnpq.br/3186709749685737 |
| Tipo de Acesso: | Acesso Aberto |
| Aparece nas coleções: | ENGENHARIA DE COMPUTAÇÃO - Monografias |
Arquivos associados a este item:
| Arquivo | Descrição | Tamanho | Formato | |
|---|---|---|---|---|
| 2025_tcc_jvdossantos.pdf | 736,61 kB | Adobe PDF | Visualizar/Abrir |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.