Classificação uni e multirrótulo de sentimentos em textos curtos

Santos, John Vasconcelos dos

Use este identificador para citar ou linkar para este item: http://repositorio.ufc.br/handle/riufc/83045

Tipo:	TCC
Título:	Classificação uni e multirrótulo de sentimentos em textos curtos
Autor(es):	Santos, John Vasconcelos dos
Orientador:	Soares, José Marques
Palavras-chave em português:	Classificação multirrótulo;Emoções;Dados sintéticos;Processamento de linguagem natural;Aprendizado de máquina
Palavras-chave em inglês:	Multi-label classification;Emotions;Synthetic data;Natural language processing;Machine learning
CNPq:	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Data do documento:	2025
Citação:	SANTOS, John Vasconcelos dos. Classificação uni e multirrótulo de sentimentos em textos curtos. 2025. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) - Universidade Federal do Ceará, Fortaleza, 2025.
Resumo:	Neste trabalho, investiga-se a eficácia de diferentes modelos de classificação na tarefa de identificar emoções em textos curtos extraídos de redes sociais, adotando abordagens uni e multirrótulo. Para isso, foi construído um corpus composto por 2209 comentários reais (dataset natural) e 1669 amostras geradas artificialmente por LLMs (dataset sintético), com o objetivo de mitigar o desbalanceamento de classes. Foram avaliados modelos tradicionais como Support Vector Machine (SVM), Perceptron Multicamadas, BERT e uma LLM (ChatGPT), considerando tanto classificações unirrótulo quanto multirrótulo. As amostras foram submetidas a tratamentos lexicais e tokenização, e os modelos treinados com diferentes composições dos dados. Os resultados indicam que o uso de dados sintéticos e técnicas de pré-processamento melhoraram significativamente a acurácia e generalização dos modelos, especialmente para classes minoritárias. O modelo BERT atingiu a melhor performance na abordagem unirrótulo (acurácia de 73,09%), enquanto a LLM obteve o melhor desempenho na classificação multirrótulo (Índice de Jaccard de 69,91%). Os achados destacam o potencial da combinação de dados sintéticos e pré-processamento na melhoria da classificação emocional em contextos com dados limitados e desbalanceados.
Abstract:	This work investigates the effectiveness of different classification models in the task of identifying emotions in short texts extracted from social media, adopting both single-label and multi-label approaches. To this end, a corpus was constructed comprising 2,209 real comments (natural dataset) and 1,669 samples artificially generated by LLMs (synthetic dataset), aiming to mitigate class imbalance. Traditional models such as Support Vector Machine (SVM), Multilayer Perceptron, BERT, and a Large Language Model (ChatGPT) were evaluated, considering both single-label and multi-label classifications. The samples underwent lexical preprocessing and tokenization, and the models were trained with different data compositions. The results indicate that the use of synthetic data and preprocessing techniques significantly improved model accuracy and generalization, especially for minority classes. The BERT model achieved the best performance in the single-label approach (accuracy of 73.09%), while the LLM obtained the best performance in the multi-label classification (Jaccard Index of 69.91%). The findings highlight the potential of combining synthetic data and preprocessing techniques to improve emotion classification in contexts with limited and imbalanced data.
URI:	http://repositorio.ufc.br/handle/riufc/83045
Currículo Lattes do(s) Autor(es):	http://lattes.cnpq.br/4996190624134192
ORCID do Orientador:	https://orcid.org/0000-0002-5111-5794
Currículo Lattes do Orientador:	http://lattes.cnpq.br/3186709749685737
Tipo de Acesso:	Acesso Aberto
Aparece nas coleções:	ENGENHARIA DE COMPUTAÇÃO - Monografias

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
2025_tcc_jvdossantos.pdf		736,61 kB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas