Impacto do pré-treinamento via MLM no desempenho e na interpretabilidade do BERTimbau para a classificação de notícias falsas

Costa, Victor Emanuel de Sousa

Please use this identifier to cite or link to this item: http://repositorio.ufc.br/handle/riufc/85861

Full metadata record

DC Field	Value	Language
dc.contributor.advisor	Cruz, Livia Almada	-
dc.contributor.author	Costa, Victor Emanuel de Sousa	-
dc.date.accessioned	2026-04-15T14:28:18Z	-
dc.date.available	2026-04-15T14:28:18Z	-
dc.date.issued	2026	-
dc.identifier.citation	COSTA, Victor Emanuel de Sousa. Impacto do pré-treinamento via MLM no desempenho e na interpretabilidade do BERTimbau para a classificação de notícias falsas. 2026. 82 f. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) - Campus de Quixadá, Universidade Federal do Ceará, Quixadá, 2026.	pt_BR
dc.identifier.uri	http://repositorio.ufc.br/handle/riufc/85861	-
dc.description.abstract	The surge of misinformation on social media and digital platforms constitutes one of the major challenges of the information age, impacting public opinion formation and threatening trust in democratic institutions and processes. Fake news has spread with unprecedented speed and reach, driven by algorithmic dynamics and accelerated online content consumption. Given this scenario, this work investigated the impact of Masked Language Modelpre-training on the performance and interpretability of the BERTimbau model for fake news classification in Portuguese. Using the FakeRecogna 2.0 corpus and a methodology based on StratifiedGroupKFold cross-validation with 10 folds, a reference model was compared to a version specialized in the Brazilian journalistic domain. The application of the eXplainable Artificial Intelligence technique, LIME, allowed auditing the classifier’s behavior regarding the concept drift phenomenon across three temporal windows, landmarks previously identified in the literature as significant change points for this dataset. Quantitative results indicated a performance gain using MLM pre-training, with the average F1-Score rising from 0.8936 to 0.9708 and average recall jumping from 0.8250 to 0.9479, suggesting that domain adaptation may have enhanced the model’s sensitivity to textual nuances that previously resulted in false negatives. From a qualitative perspective, the analysis raises the hypothesis that the classifier correlates syntactic cohesion and stopword frequency with journalistic veracity, whereas it appears to use structural viralization patterns as indicators of deceptive content. Furthermore, a trend of sanitary thematic consistency was observed in true news throughout the three periods, while fake news appeared to migrate more rapidly towards political polarization. Despite high metrics, limitations were noted in interpreting metaphors and potential noise stemming from fact-checking agency metadata, reinforcing that domain specialization and explainability are relevant tools in the pursuit of robustness and transparency in fake news classification in Portuguese.	pt_BR
dc.language.iso	pt_BR	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.title	Impacto do pré-treinamento via MLM no desempenho e na interpretabilidade do BERTimbau para a classificação de notícias falsas	pt_BR
dc.type	TCC	pt_BR
dc.contributor.co-advisor	Aguiar Neto, Décio Gonçalves de	-
dc.description.abstract-ptbr	O aumento da desinformação nas redes sociais e plataformas digitais representa um dos maiores desafios da era da informação, impactando a formação da opinião pública e ameaçando a confiança em instituições e processos democráticos. Notícias falsas têm se espalhado com rapidez e alcance inéditos, impulsionadas pela dinâmica dos algoritmos e pelo consumo acelerado de conteúdos online. Diante desse cenário, este trabalho investigou o impacto do pré-treinamento via Modelo de Linguagem Mascarado (Masked Language Model) no desempenho e na interpretabilidade do modelo BERTimbau para a classificação de notícias falsas em português. Utilizando o corpus FakeRecogna 2.0 e uma metodologia baseada em validação cruzada StratifiedGroupKFold com 10 folds, comparou-se um modelo de referência a uma versão especializada no domínio jornalístico brasileiro. A aplicação da técnica de Inteligência Artificial Explicável, o LIME, permitiu auditar o comportamento do classificador frente ao fenômeno de deriva de conceito em três janelas temporais, marcos estes previamente identificados na literatura como pontos de mudança significativa para este conjunto de dados. Os resultados quantitativos indicaram um ganho de desempenho com o uso do pré-treinamento via Modelo de Linguagem Mascarado, com o F1-Score médio elevando-se de 0,8936 para 0,9708 e a revocação média saltando de 0,8250 para 0,9479, sugerindo que a adaptação ao domínio pode ter ampliado a sensibilidade do modelo a nuances textuais que anteriormente resultavam em falsos negativos. Sob a ótica qualitativa, a análise levanta a hipótese de que o classificador correlaciona a coesão sintática e a frequência de stopwords com a veracidade jornalística, ao passo que parece utilizar padrões estruturais de viralização como indicativos de conteúdos enganosos. Observou-se, ainda, uma tendência de consistência temática sanitária nas notícias verdadeiras ao longo dos três períodos, enquanto as falsas aparentaram migrar mais rapidamente para a polarização política. Apesar dos métricas elevadas, notaram-se limitações na interpretação de metáforas e possíveis ruídos decorrentes de metadados de agências de checagem, reforçando que a especialização de domínio e a explicabilidade são ferramentas relevantes para a busca por robustez e transparência na classificação de notícias falsas em português.	pt_BR
dc.subject.ptbr	notícias falsas	pt_BR
dc.subject.ptbr	BERTimbau	pt_BR
dc.subject.ptbr	deriva de conceito	pt_BR
dc.subject.cnpq	CNPQ: CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO	pt_BR
local.advisor.lattes	http://lattes.cnpq.br/8972397134674530	pt_BR
Appears in Collections:	CIÊNCIA DA COMPUTAÇÃO-QUIXADÁ - Monografias

Files in This Item:

File	Description	Size	Format
2026_tcc_vescosta.pdf		4,69 MB	Adobe PDF	View/Open

Show simple item record