Use este identificador para citar ou linkar para este item:
http://repositorio.ufc.br/handle/riufc/82391| Tipo: | TCC |
| Título: | Identificação de desinformação em áudio dentro de grupos públicos do aplicativo whatsapp |
| Autor(es): | Cruz, Francisca Isabelle de Almeida |
| Orientador: | Silva, José Wellington Franco da |
| Palavras-chave em português: | identificação de fake news;natural language processing (NPL);conteúdo em audio;multimodal;aprendizado de máquina;speech-to-text |
| Palavras-chave em inglês: | fake news detection;natural language processing (NLP);audio content;multimodal;machine learning;speech-to-text |
| CNPq: | CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::SISTEMAS DE INFORMACAO |
| Data do documento: | 2025 |
| Citação: | CRUZ, Francisca Isabelle de Almeida. Identificação de desinformação em áudio dentro de grupos públicos do aplicativo whatsapp. 2025. Trabalho de Conclusão de Curso (Curso de Graduação em Sistemas de Informação) - Campus de Crateús, Universidade Federal do Ceará, Crateús, 2025. |
| Resumo: | A disseminação de desinformação nas redes sociais é uma preocupação crescente, impactando negativamente a percepção pública e a tomada de decisões. Até o momento, os esforços para identificar notícias falsas têm se concentrado principalmente em textos, deixando uma lacuna significativa na detecção de desinformação em áudios. Este trabalho propõe uma abordagem para preencher essa lacuna, utilizando a análise de um (corpus) de áudios e aplicando-o em diversos modelos de aprendizado de máquina, com o objetivo de supervisionar de forma eficaz a detecção de desinformação em conteúdo sonoro. Inicialmente, os áudios são transcritos por meio de tecnologias de reconhecimento de fala (speech-to-text), possibilitando a análise textual com técnicas voltadas à identificação de notícias falsas. A abordagem multimodal — integrando áudio e texto — ampliou a eficácia da detecção ao considerar aspectos contextuais e semânticos que poderiam passar despercebidos em análises apenas textuais.Foram avaliadas diferentes combinações de vetorização (BoW e TF-IDF), com variações de n-gramas e pré-processamento, utilizando modelos de aprendizado de máquina como SGD, SVM, Random Forest, entre outros. A performance foi medida por métricas como f1-score, precision, recall e FPR. Os melhores resultados foram obtidos com os modelos SGD e Linear SVM, especialmente com TF-IDF combinando unigrama, bigrama e trigrama com pré-processamento, alcançando um F1-score de até 0,579. Isso demonstra uma boa capacidade de identificar tanto as fake news quanto os conteúdos verídicos, mesmo em cenários de classes desbalanceadas. A metodologia proposta mostrou-se eficaz para detectar desinformação em áudios, contribuindo com soluções tecnológicas relevantes para o combate à propagação de (fake news) nas redes sociais. |
| Abstract: | The spread of disinformation on social media is a growing concern, negatively impacting public perception and decision-making. So far, efforts to identify fake news have focused mainly on textual content, leaving a significant gap in the detection of disinformation in audio. This study proposes an approach to fill that gap by analyzing a corpus of audio content and applying it to various machine learning models, with the aim of effectively supervising the detection of disinformation in sound-based content. Initially, the audio files are transcribed using speech recognition technologies (speech-to-text), enabling textual analysis with techniques aimed at identifying fake news. The multimodal approach — integrating both audio and text — enhanced detection effectiveness by considering contextual and semantic aspects that might go unnoticed in purely textual analyses. Different vectorization combinations (BoW and TF-IDF) were evaluated, with variations of n-grams and preprocessing, using machine learning models such as SGD, SVM, Random Forest, among others. Performance was measured using metrics such as F1- score, precision, recall, and FPR. The best results were achieved with the SGD and Linear SVM models, particularly with TF-IDF combining unigrams, bigrams, and trigrams with preprocessing, reaching an F1-score of up to 0.579. This demonstrates a strong ability to identify both fake and truthful content, even in imbalanced class scenarios. The proposed methodology proved effective in detecting disinformation in audio, contributing relevant technological solutions to combat the spread of fake news on social media platforms. |
| URI: | http://repositorio.ufc.br/handle/riufc/82391 |
| Tipo de Acesso: | Acesso Aberto |
| Aparece nas coleções: | SISTEMAS DE INFORMAÇÃO - CRATEÚS - Monografias |
Arquivos associados a este item:
| Arquivo | Descrição | Tamanho | Formato | |
|---|---|---|---|---|
| 2025_tcc_fiacruz.pdf | 3,21 MB | Adobe PDF | Visualizar/Abrir |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.