Use este identificador para citar ou linkar para este item:
http://repositorio.ufc.br/handle/riufc/25016
Tipo: | TCC |
Título: | Mineração de textos do Twitter utilizando técnicas de classificação |
Autor(es): | Leite, João Lucas Araújo |
Orientador: | Silva, Ticiana Linhares Coelho da |
Palavras-chave: | Redes sociais;Mineração de dados (Computação);Classificação - Computação |
Data do documento: | 2015 |
Citação: | LEITE, João Lucas Araújo. Mineração de textos do Twitter utilizando técnicas de classificação. 2015. TCC (graduação em Engenharia de Software) - Universidade Federal do Ceará, Campus Quixadá, Quixadá, 2015. |
Resumo: | Nos últimos anos, em consequência do crescimento das redes sociais, as pessoas interagem e compartilham informações relevantes na Internet. Esse crescimento proporcionou algumas vantagens. Uma das vantagens é o compartilhamento de informações entre os usuários em um curto espaço de tempo. Alguns usuários das redes sociais costumam postar opiniões sobre diferentes eventos que estão em alta no momento. Consequentemente, o volume diário de dados que é gerado através das redes sociais cresce exponencialmente e toda a informação gerada através destes poderá ser relevante, se for tratada e utilizada corretamente. Desta forma, surge o estímulo de gerar conhecimento a partir destas informações, de forma organizada e automatizada. Assim, o objetivo principal deste trabalho consiste na construção de um modelo capaz de classificar, em categorias, os dados que foram capturados da rede social Twitter. As postagens dos usuários, conhecida como tweets, são categorizadas neste trabalho como: economia, esporte, religião, política e outros. Os dados coletados do Twitter passaram por um processamento de linguagem natural antes de ser gerado o modelo, a fim de retirar stopwords, acentos, pontuação e sufixos. O modelo obtido apresentou acurácia satisfatória e foi gerado utilizando a técnica de classificação Naive Bayes. |
Abstract: | In recent years, due to the growth of social networks, people interact and share relevant information on the Internet. This growth has some advantages. One of the advantages is the sharing of information between users in a short time. Some social networks users often post reviews of different events that are the breaking news in that moment. Consequently, the daily volume of data that is generated through social networks grows exponentially and all the information generated through the may be relevant if it is treated and used correctly. Therefore, there is the stimulus to generate knowledge from this information in an organized and automated. The main purpose of this work is to construct a model to classify into categories, the data that was captured from the social network Twitter. Posts of users, known as tweets, are categorized in this work as: economy, sport, religion, politics and others. The data collected from Twitter went through a natural language processing before building the model, in order to remove stopwords, accents, punctuation and suffixes. The obtained model showed satisfactory accuracy and was generated using the Naive Bayes classification algorithm. |
URI: | http://www.repositorio.ufc.br/handle/riufc/25016 |
Aparece nas coleções: | ENGENHARIA DE SOFTWARE - QUIXADÁ - TCC |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
2015_tcc_jlaleite.pdf | 1,41 MB | Adobe PDF | Visualizar/Abrir |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.