Mineração de textos do Twitter utilizando técnicas de classificação

Leite, João Lucas Araújo

Use este identificador para citar ou linkar para este item: http://repositorio.ufc.br/handle/riufc/25016

Tipo:	TCC
Título:	Mineração de textos do Twitter utilizando técnicas de classificação
Autor(es):	Leite, João Lucas Araújo
Orientador:	Silva, Ticiana Linhares Coelho da
Palavras-chave:	Redes sociais;Mineração de dados (Computação);Classificação - Computação
Data do documento:	2015
Citação:	LEITE, João Lucas Araújo. Mineração de textos do Twitter utilizando técnicas de classificação. 2015. TCC (graduação em Engenharia de Software) - Universidade Federal do Ceará, Campus Quixadá, Quixadá, 2015.
Resumo:	Nos últimos anos, em consequência do crescimento das redes sociais, as pessoas interagem e compartilham informações relevantes na Internet. Esse crescimento proporcionou algumas vantagens. Uma das vantagens é o compartilhamento de informações entre os usuários em um curto espaço de tempo. Alguns usuários das redes sociais costumam postar opiniões sobre diferentes eventos que estão em alta no momento. Consequentemente, o volume diário de dados que é gerado através das redes sociais cresce exponencialmente e toda a informação gerada através destes poderá ser relevante, se for tratada e utilizada corretamente. Desta forma, surge o estímulo de gerar conhecimento a partir destas informações, de forma organizada e automatizada. Assim, o objetivo principal deste trabalho consiste na construção de um modelo capaz de classificar, em categorias, os dados que foram capturados da rede social Twitter. As postagens dos usuários, conhecida como tweets, são categorizadas neste trabalho como: economia, esporte, religião, política e outros. Os dados coletados do Twitter passaram por um processamento de linguagem natural antes de ser gerado o modelo, a fim de retirar stopwords, acentos, pontuação e sufixos. O modelo obtido apresentou acurácia satisfatória e foi gerado utilizando a técnica de classificação Naive Bayes.
Abstract:	In recent years, due to the growth of social networks, people interact and share relevant information on the Internet. This growth has some advantages. One of the advantages is the sharing of information between users in a short time. Some social networks users often post reviews of different events that are the breaking news in that moment. Consequently, the daily volume of data that is generated through social networks grows exponentially and all the information generated through the may be relevant if it is treated and used correctly. Therefore, there is the stimulus to generate knowledge from this information in an organized and automated. The main purpose of this work is to construct a model to classify into categories, the data that was captured from the social network Twitter. Posts of users, known as tweets, are categorized in this work as: economy, sport, religion, politics and others. The data collected from Twitter went through a natural language processing before building the model, in order to remove stopwords, accents, punctuation and suffixes. The obtained model showed satisfactory accuracy and was generated using the Naive Bayes classification algorithm.
URI:	http://www.repositorio.ufc.br/handle/riufc/25016
Aparece nas coleções:	ENGENHARIA DE SOFTWARE - QUIXADÁ - TCC

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
2015_tcc_jlaleite.pdf		1,41 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas