Classificação uni e multirrótulo de sentimentos em textos curtos

Santos, John Vasconcelos dos

Use este identificador para citar ou linkar para este item: http://repositorio.ufc.br/handle/riufc/83045

Registro completo de metadados

Campo DC	Valor	Idioma
dc.contributor.advisor	Soares, José Marques	-
dc.contributor.author	Santos, John Vasconcelos dos	-
dc.date.accessioned	2025-10-14T16:35:24Z	-
dc.date.available	2025-10-14T16:35:24Z	-
dc.date.issued	2025	-
dc.identifier.citation	SANTOS, John Vasconcelos dos. Classificação uni e multirrótulo de sentimentos em textos curtos. 2025. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) - Universidade Federal do Ceará, Fortaleza, 2025.	pt_BR
dc.identifier.uri	http://repositorio.ufc.br/handle/riufc/83045	-
dc.description.abstract	This work investigates the effectiveness of different classification models in the task of identifying emotions in short texts extracted from social media, adopting both single-label and multi-label approaches. To this end, a corpus was constructed comprising 2,209 real comments (natural dataset) and 1,669 samples artificially generated by LLMs (synthetic dataset), aiming to mitigate class imbalance. Traditional models such as Support Vector Machine (SVM), Multilayer Perceptron, BERT, and a Large Language Model (ChatGPT) were evaluated, considering both single-label and multi-label classifications. The samples underwent lexical preprocessing and tokenization, and the models were trained with different data compositions. The results indicate that the use of synthetic data and preprocessing techniques significantly improved model accuracy and generalization, especially for minority classes. The BERT model achieved the best performance in the single-label approach (accuracy of 73.09%), while the LLM obtained the best performance in the multi-label classification (Jaccard Index of 69.91%). The findings highlight the potential of combining synthetic data and preprocessing techniques to improve emotion classification in contexts with limited and imbalanced data.	pt_BR
dc.language.iso	pt_BR	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.title	Classificação uni e multirrótulo de sentimentos em textos curtos	pt_BR
dc.type	TCC	pt_BR
dc.description.abstract-ptbr	Neste trabalho, investiga-se a eficácia de diferentes modelos de classificação na tarefa de identificar emoções em textos curtos extraídos de redes sociais, adotando abordagens uni e multirrótulo. Para isso, foi construído um corpus composto por 2209 comentários reais (dataset natural) e 1669 amostras geradas artificialmente por LLMs (dataset sintético), com o objetivo de mitigar o desbalanceamento de classes. Foram avaliados modelos tradicionais como Support Vector Machine (SVM), Perceptron Multicamadas, BERT e uma LLM (ChatGPT), considerando tanto classificações unirrótulo quanto multirrótulo. As amostras foram submetidas a tratamentos lexicais e tokenização, e os modelos treinados com diferentes composições dos dados. Os resultados indicam que o uso de dados sintéticos e técnicas de pré-processamento melhoraram significativamente a acurácia e generalização dos modelos, especialmente para classes minoritárias. O modelo BERT atingiu a melhor performance na abordagem unirrótulo (acurácia de 73,09%), enquanto a LLM obteve o melhor desempenho na classificação multirrótulo (Índice de Jaccard de 69,91%). Os achados destacam o potencial da combinação de dados sintéticos e pré-processamento na melhoria da classificação emocional em contextos com dados limitados e desbalanceados.	pt_BR
dc.subject.ptbr	Classificação multirrótulo	pt_BR
dc.subject.ptbr	Emoções	pt_BR
dc.subject.ptbr	Dados sintéticos	pt_BR
dc.subject.ptbr	Processamento de linguagem natural	pt_BR
dc.subject.ptbr	Aprendizado de máquina	pt_BR
dc.subject.en	Multi-label classification	pt_BR
dc.subject.en	Emotions	pt_BR
dc.subject.en	Synthetic data	pt_BR
dc.subject.en	Natural language processing	pt_BR
dc.subject.en	Machine learning	pt_BR
dc.subject.cnpq	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO	pt_BR
local.author.lattes	http://lattes.cnpq.br/4996190624134192	pt_BR
local.advisor.orcid	https://orcid.org/0000-0002-5111-5794	pt_BR
local.advisor.lattes	http://lattes.cnpq.br/3186709749685737	pt_BR
local.date.available	2025-10-14	-
Aparece nas coleções:	ENGENHARIA DE COMPUTAÇÃO - Monografias

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
2025_tcc_jvdossantos.pdf		736,61 kB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Visualizar estatísticas