Please use this identifier to cite or link to this item: http://repositorio.ufc.br/handle/riufc/85861
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorCruz, Livia Almada-
dc.contributor.authorCosta, Victor Emanuel de Sousa-
dc.date.accessioned2026-04-15T14:28:18Z-
dc.date.available2026-04-15T14:28:18Z-
dc.date.issued2026-
dc.identifier.citationCOSTA, Victor Emanuel de Sousa. Impacto do pré-treinamento via MLM no desempenho e na interpretabilidade do BERTimbau para a classificação de notícias falsas. 2026. 82 f. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) - Campus de Quixadá, Universidade Federal do Ceará, Quixadá, 2026.pt_BR
dc.identifier.urihttp://repositorio.ufc.br/handle/riufc/85861-
dc.description.abstractThe surge of misinformation on social media and digital platforms constitutes one of the major challenges of the information age, impacting public opinion formation and threatening trust in democratic institutions and processes. Fake news has spread with unprecedented speed and reach, driven by algorithmic dynamics and accelerated online content consumption. Given this scenario, this work investigated the impact of Masked Language Modelpre-training on the performance and interpretability of the BERTimbau model for fake news classification in Portuguese. Using the FakeRecogna 2.0 corpus and a methodology based on StratifiedGroupKFold cross-validation with 10 folds, a reference model was compared to a version specialized in the Brazilian journalistic domain. The application of the eXplainable Artificial Intelligence technique, LIME, allowed auditing the classifier’s behavior regarding the concept drift phenomenon across three temporal windows, landmarks previously identified in the literature as significant change points for this dataset. Quantitative results indicated a performance gain using MLM pre-training, with the average F1-Score rising from 0.8936 to 0.9708 and average recall jumping from 0.8250 to 0.9479, suggesting that domain adaptation may have enhanced the model’s sensitivity to textual nuances that previously resulted in false negatives. From a qualitative perspective, the analysis raises the hypothesis that the classifier correlates syntactic cohesion and stopword frequency with journalistic veracity, whereas it appears to use structural viralization patterns as indicators of deceptive content. Furthermore, a trend of sanitary thematic consistency was observed in true news throughout the three periods, while fake news appeared to migrate more rapidly towards political polarization. Despite high metrics, limitations were noted in interpreting metaphors and potential noise stemming from fact-checking agency metadata, reinforcing that domain specialization and explainability are relevant tools in the pursuit of robustness and transparency in fake news classification in Portuguese.pt_BR
dc.language.isopt_BRpt_BR
dc.rightsAcesso Abertopt_BR
dc.titleImpacto do pré-treinamento via MLM no desempenho e na interpretabilidade do BERTimbau para a classificação de notícias falsaspt_BR
dc.typeTCCpt_BR
dc.contributor.co-advisorAguiar Neto, Décio Gonçalves de-
dc.description.abstract-ptbrO aumento da desinformação nas redes sociais e plataformas digitais representa um dos maiores desafios da era da informação, impactando a formação da opinião pública e ameaçando a confiança em instituições e processos democráticos. Notícias falsas têm se espalhado com rapidez e alcance inéditos, impulsionadas pela dinâmica dos algoritmos e pelo consumo acelerado de conteúdos online. Diante desse cenário, este trabalho investigou o impacto do pré-treinamento via Modelo de Linguagem Mascarado (Masked Language Model) no desempenho e na interpretabilidade do modelo BERTimbau para a classificação de notícias falsas em português. Utilizando o corpus FakeRecogna 2.0 e uma metodologia baseada em validação cruzada StratifiedGroupKFold com 10 folds, comparou-se um modelo de referência a uma versão especializada no domínio jornalístico brasileiro. A aplicação da técnica de Inteligência Artificial Explicável, o LIME, permitiu auditar o comportamento do classificador frente ao fenômeno de deriva de conceito em três janelas temporais, marcos estes previamente identificados na literatura como pontos de mudança significativa para este conjunto de dados. Os resultados quantitativos indicaram um ganho de desempenho com o uso do pré-treinamento via Modelo de Linguagem Mascarado, com o F1-Score médio elevando-se de 0,8936 para 0,9708 e a revocação média saltando de 0,8250 para 0,9479, sugerindo que a adaptação ao domínio pode ter ampliado a sensibilidade do modelo a nuances textuais que anteriormente resultavam em falsos negativos. Sob a ótica qualitativa, a análise levanta a hipótese de que o classificador correlaciona a coesão sintática e a frequência de stopwords com a veracidade jornalística, ao passo que parece utilizar padrões estruturais de viralização como indicativos de conteúdos enganosos. Observou-se, ainda, uma tendência de consistência temática sanitária nas notícias verdadeiras ao longo dos três períodos, enquanto as falsas aparentaram migrar mais rapidamente para a polarização política. Apesar dos métricas elevadas, notaram-se limitações na interpretação de metáforas e possíveis ruídos decorrentes de metadados de agências de checagem, reforçando que a especialização de domínio e a explicabilidade são ferramentas relevantes para a busca por robustez e transparência na classificação de notícias falsas em português.pt_BR
dc.subject.ptbrnotícias falsaspt_BR
dc.subject.ptbrBERTimbaupt_BR
dc.subject.ptbrderiva de conceitopt_BR
dc.subject.cnpqCNPQ: CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃOpt_BR
local.advisor.latteshttp://lattes.cnpq.br/8972397134674530pt_BR
Appears in Collections:CIÊNCIA DA COMPUTAÇÃO-QUIXADÁ - Monografias

Files in This Item:
File Description SizeFormat 
2026_tcc_vescosta.pdf4,69 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.