Please use this identifier to cite or link to this item: http://www.repositorio.ufc.br/handle/riufc/25016
Title in Portuguese: Mineração de textos do Twitter utilizando técnicas de classificação
Author: Leite, João Lucas Araújo
Advisor(s): Silva, Ticiana Linhares Coelho da
Keywords: Redes sociais
Mineração de dados (Computação)
Classificação - Computação
Issue Date: 2015
Citation: LEITE, João Lucas Araújo. Mineração de textos do Twitter utilizando técnicas de classificação. 2015. TCC (graduação em Engenharia de Software) - Universidade Federal do Ceará, Campus Quixadá, Quixadá, 2015.
Abstract in Portuguese: Nos últimos anos, em consequência do crescimento das redes sociais, as pessoas interagem e compartilham informações relevantes na Internet. Esse crescimento proporcionou algumas vantagens. Uma das vantagens é o compartilhamento de informações entre os usuários em um curto espaço de tempo. Alguns usuários das redes sociais costumam postar opiniões sobre diferentes eventos que estão em alta no momento. Consequentemente, o volume diário de dados que é gerado através das redes sociais cresce exponencialmente e toda a informação gerada através destes poderá ser relevante, se for tratada e utilizada corretamente. Desta forma, surge o estímulo de gerar conhecimento a partir destas informações, de forma organizada e automatizada. Assim, o objetivo principal deste trabalho consiste na construção de um modelo capaz de classificar, em categorias, os dados que foram capturados da rede social Twitter. As postagens dos usuários, conhecida como tweets, são categorizadas neste trabalho como: economia, esporte, religião, política e outros. Os dados coletados do Twitter passaram por um processamento de linguagem natural antes de ser gerado o modelo, a fim de retirar stopwords, acentos, pontuação e sufixos. O modelo obtido apresentou acurácia satisfatória e foi gerado utilizando a técnica de classificação Naive Bayes.
Abstract: In recent years, due to the growth of social networks, people interact and share relevant information on the Internet. This growth has some advantages. One of the advantages is the sharing of information between users in a short time. Some social networks users often post reviews of different events that are the breaking news in that moment. Consequently, the daily volume of data that is generated through social networks grows exponentially and all the information generated through the may be relevant if it is treated and used correctly. Therefore, there is the stimulus to generate knowledge from this information in an organized and automated. The main purpose of this work is to construct a model to classify into categories, the data that was captured from the social network Twitter. Posts of users, known as tweets, are categorized in this work as: economy, sport, religion, politics and others. The data collected from Twitter went through a natural language processing before building the model, in order to remove stopwords, accents, punctuation and suffixes. The obtained model showed satisfactory accuracy and was generated using the Naive Bayes classification algorithm.
URI: http://www.repositorio.ufc.br/handle/riufc/25016
metadata.dc.type: TCC
Appears in Collections:ENGENHARIA DE SOFTWARE - QUIXADÁ - TCC

Files in This Item:
File Description SizeFormat 
2015_tcc_jlaleite.pdf1,41 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.