Impacto do pré-treinamento via MLM no desempenho e na interpretabilidade do BERTimbau para a classificação de notícias falsas

Costa, Victor Emanuel de Sousa

Use este identificador para citar ou linkar para este item: http://repositorio.ufc.br/handle/riufc/85861

Tipo:	TCC
Título:	Impacto do pré-treinamento via MLM no desempenho e na interpretabilidade do BERTimbau para a classificação de notícias falsas
Autor(es):	Costa, Victor Emanuel de Sousa
Orientador:	Cruz, Livia Almada
Coorientador:	Aguiar Neto, Décio Gonçalves de
Palavras-chave em português:	notícias falsas;BERTimbau;deriva de conceito
CNPq:	CNPQ: CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
Data do documento:	2026
Citação:	COSTA, Victor Emanuel de Sousa. Impacto do pré-treinamento via MLM no desempenho e na interpretabilidade do BERTimbau para a classificação de notícias falsas. 2026. 82 f. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) - Campus de Quixadá, Universidade Federal do Ceará, Quixadá, 2026.
Resumo:	O aumento da desinformação nas redes sociais e plataformas digitais representa um dos maiores desafios da era da informação, impactando a formação da opinião pública e ameaçando a confiança em instituições e processos democráticos. Notícias falsas têm se espalhado com rapidez e alcance inéditos, impulsionadas pela dinâmica dos algoritmos e pelo consumo acelerado de conteúdos online. Diante desse cenário, este trabalho investigou o impacto do pré-treinamento via Modelo de Linguagem Mascarado (Masked Language Model) no desempenho e na interpretabilidade do modelo BERTimbau para a classificação de notícias falsas em português. Utilizando o corpus FakeRecogna 2.0 e uma metodologia baseada em validação cruzada StratifiedGroupKFold com 10 folds, comparou-se um modelo de referência a uma versão especializada no domínio jornalístico brasileiro. A aplicação da técnica de Inteligência Artificial Explicável, o LIME, permitiu auditar o comportamento do classificador frente ao fenômeno de deriva de conceito em três janelas temporais, marcos estes previamente identificados na literatura como pontos de mudança significativa para este conjunto de dados. Os resultados quantitativos indicaram um ganho de desempenho com o uso do pré-treinamento via Modelo de Linguagem Mascarado, com o F1-Score médio elevando-se de 0,8936 para 0,9708 e a revocação média saltando de 0,8250 para 0,9479, sugerindo que a adaptação ao domínio pode ter ampliado a sensibilidade do modelo a nuances textuais que anteriormente resultavam em falsos negativos. Sob a ótica qualitativa, a análise levanta a hipótese de que o classificador correlaciona a coesão sintática e a frequência de stopwords com a veracidade jornalística, ao passo que parece utilizar padrões estruturais de viralização como indicativos de conteúdos enganosos. Observou-se, ainda, uma tendência de consistência temática sanitária nas notícias verdadeiras ao longo dos três períodos, enquanto as falsas aparentaram migrar mais rapidamente para a polarização política. Apesar dos métricas elevadas, notaram-se limitações na interpretação de metáforas e possíveis ruídos decorrentes de metadados de agências de checagem, reforçando que a especialização de domínio e a explicabilidade são ferramentas relevantes para a busca por robustez e transparência na classificação de notícias falsas em português.
Abstract:	The surge of misinformation on social media and digital platforms constitutes one of the major challenges of the information age, impacting public opinion formation and threatening trust in democratic institutions and processes. Fake news has spread with unprecedented speed and reach, driven by algorithmic dynamics and accelerated online content consumption. Given this scenario, this work investigated the impact of Masked Language Modelpre-training on the performance and interpretability of the BERTimbau model for fake news classification in Portuguese. Using the FakeRecogna 2.0 corpus and a methodology based on StratifiedGroupKFold cross-validation with 10 folds, a reference model was compared to a version specialized in the Brazilian journalistic domain. The application of the eXplainable Artificial Intelligence technique, LIME, allowed auditing the classifier’s behavior regarding the concept drift phenomenon across three temporal windows, landmarks previously identified in the literature as significant change points for this dataset. Quantitative results indicated a performance gain using MLM pre-training, with the average F1-Score rising from 0.8936 to 0.9708 and average recall jumping from 0.8250 to 0.9479, suggesting that domain adaptation may have enhanced the model’s sensitivity to textual nuances that previously resulted in false negatives. From a qualitative perspective, the analysis raises the hypothesis that the classifier correlates syntactic cohesion and stopword frequency with journalistic veracity, whereas it appears to use structural viralization patterns as indicators of deceptive content. Furthermore, a trend of sanitary thematic consistency was observed in true news throughout the three periods, while fake news appeared to migrate more rapidly towards political polarization. Despite high metrics, limitations were noted in interpreting metaphors and potential noise stemming from fact-checking agency metadata, reinforcing that domain specialization and explainability are relevant tools in the pursuit of robustness and transparency in fake news classification in Portuguese.
URI:	http://repositorio.ufc.br/handle/riufc/85861
Currículo Lattes do Orientador:	http://lattes.cnpq.br/8972397134674530
Tipo de Acesso:	Acesso Aberto
Aparece nas coleções:	CIÊNCIA DA COMPUTAÇÃO-QUIXADÁ - Monografias

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
2026_tcc_vescosta.pdf		4,69 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas