Please use this identifier to cite or link to this item: http://repositorio.ufc.br/handle/riufc/64489
Type: TCC
Title: Classificação e clusterização de dados de mídias sociais obtidos através de wb crawlers para análise de sentimentos e ideações suicidas
Authors: Mendes, Cícero Marcelo Oliveira
Advisor: Soares, Pablo Luiz Braga
Keywords: Web crawlers;Mídias sociais;Aprendizado de máquina
Issue Date: 2022
Abstract in Brazilian Portuguese: Com a ascensão das mídias sociais como consequência do advento da internet, os usuários dessas plataformas geram grande quantidade de dados que possibilitam sua exploração em diferentes formatos. Há inúmeros meios e técnicas que auxiliam na extração de informações presentes no ambiente web, além de regras para tratamento e aplicação de modelos de aprendizado de máquina com a finalidade de analisar e descobrir padrões em meio aos registros. Pesquisas comprovaram que as postagens de um dado usuário em uma mídia social pode expressar diferentes emoções, ou mesmo, a mensagem pode conter ideações suicidas, sejam estas claras ou não. Trabalhos recentes utilizaram a análise de sentimentos como estratégias para identificação da polaridade de um texto. Outros estudos demonstram o uso da escala de avaliação de risco suicida como ferramenta para a definição do grau suicida contida em um dado conteúdo. Este trabalho tem como objetivo o uso de algoritmos de automação para construção de uma base de dados contendo como fonte as mídias sociais Facebook, Instagram, Twitter e Mundo Psicólogos. Além disso, foca na aplicação de algoritmos da área de aprendizado de máquina para execução de análise de sentimentos e de ideações suicidas. Como resultado desse estudo, foi construída uma base contendo 32.794 mensagens através da implementação de web crawlers. Também foram rotuladas 1.600 mensagens de forma manual em 5 diferentes grupos representativos de níveis suicidas, e 31.974 de forma automática em polaridade positiva ou negativa. Foram utilizados quatro algoritmos de aprendizado de máquina, sendo o Random Forest com o Naive Bayes destinados a classificação sobre a análise de sentimentos e o K-means e DBSCAN para clusterização sobre ideações suicidas. Dos algoritmos utilizados para análise de sentimentos, o RandomForest apresentou os melhores resultados segundo as métricas utilizadas. Sobre a clusterização, nenhuma das classes previamente definidas foi agrupada integralmente a algum dos grupos gerados.
Abstract: With the rise of social media the advent of the internet, users of these platforms generate a large amount of data that makes it possible to explore them in different formats. Numerous means and techniques help extract information in the web environment and rules for handling and applying machine learning models to analyze and discover patterns in the records. Research has shown that a given user’s posts on social media can express different emotions, or even the message can contain suicidal ideation, whether they are clear or not. Recent works have used sentiment analysis as strategies to identify the polarity of a text. Other studies demonstrate the use of the suicidal risk assessment scale as a tool to define the degree of suicide contained in a given content. This work aims to use automation algorithms to build a database containing as source the social media Facebook, Instagram, Twitter and Mundo Psicólogos. In addition, it focuses on the application of machine learning algorithms to analyze feelings and suicidal ideation. As a result of this study, a base containing 32,794 messages was built through the implementation of web crawlers. Also, 1,600 messages were manually labelled in 5 different groups representing suicidal levels, and 31,974 automatically in positive or negative polarity. This paper used four machine learning algorithms: Random Forest with Naive Bayes for classification on the analysis of feelings and K-means and DBSCAN for clustering on suicidal ideation. Of the algorithms used for analyzing feelings, RandomForest showed the best results according to the metrics used. About clustering, none of the previously defined classes was fully grouped with any of the generated groups.
URI: http://www.repositorio.ufc.br/handle/riufc/64489
Appears in Collections:CIÊNCIA DA COMPUTAÇÃO - RUSSAS - Monografias

Files in This Item:
File Description SizeFormat 
2022_tcc_cmomendes.pdf586,27 kBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.