Use este identificador para citar ou linkar para este item: http://repositorio.ufc.br/handle/riufc/29578
Tipo: TCC
Título: Avaliando o dicionário em português do método de análise de sentimentos SentiStrength
Autor(es): Melo, Randerson Lessa
Orientador: Jucá, Paulyne Matthews
Palavras-chave: SentiStrength;Twitter (Redes Sociais on-line)
Data do documento: 2017
Citação: MELO, Randerson Lessa. Avaliando o dicionário em português do método de análise de sentimentos SentiStrength. 2017. 53 f. TCC (Graduação em Engenharia de Software) - Universidade Federal do Ceará, Campus Quixadá, Quixadá, CE, 2017.
Resumo: A análise de sentimentos é uma das técnicas utilizadas para minerar opinião nas redes sociais. Dentre as redes sociais mais utilizadas, está o Twitter, sendo utilizada por cerca de 319 milhões de usuários. Ele é considerado como um microblog e permite que usuários, em tempo real, enviem e recebam de seus contatos textos de até 140 caracteres, conhecidos como tweets. Esses tweets podem conter diversos tipos de informações, como notícias, reclamações, opiniões, e muitos expressam sentimentos. Existem diversos métodos de análise de sentimentos. Dentre esses, o SentiStrength é um método que utiliza um dicionário léxico anotado por seres humanos e melhorado com o uso de Aprendizado de Máquina. O método demonstrou em algumas pesquisas um bom desempenho em análise de sentimento com tweets em inglês. O método disponibiliza alguns outros dicionários, incluindo um dicionário em português que foi pouco utilizado em pesquisas. Nesse contexto, este trabalho visa analisar a eficácia do método SentiStrength com o dicionário em português para tweets também em português. Para realização da análise da acurácia do método, foram realizadas duas coletas de 1000 tweets cada sobre temas diferentes e os resultados foram comparados com uma análise feita manualmente. Após uma sugestão de melhoria no dicionário, foi possível verificar uma melhora nos resultados, chegando à conclusão que a eficácia do método está diretamente relacionada com a generalização do dicionário utilizado.
Abstract: The sentiment analysis is one of the techniques used to identify this customer satisfaction in social networks. Among the most used social networks is Twitter, being used by about 319 million users. It is considered a micro-blog and allows users, in real time, to send and receive texts of up to 140 characters, known as tweets, to from their contacts. These tweets can contain various types of information such as news, complaints, opinions, and many express feelings. There are several methods of sentiment analyzing. Among these, SentiStrength is a method that uses a lexical dictionary annotated by humans and improved with the use of Machine Learning. The method has shown in some surveys a good performance in sentiment analysis with tweets in English. The method provides some other dictionaries, including a dictionary in Portuguese that has been little used in searches. In this context, this work aims to analyze the accuracy of the SentiStrength method with the Portuguese dictionary for tweets also in Portuguese. To perform the analysis of the accuracy of the method, two 1000 tweets were collected each on different themes and the results were compared with a manual analysis. After a suggestion of improvement in the dictionary, it was possible to verify an improvement in the results, arriving to the conclusion that the effectiveness of the method is directly related to the generalization of the dictionary used.
URI: http://www.repositorio.ufc.br/handle/riufc/29578
Aparece nas coleções:ENGENHARIA DE SOFTWARE - QUIXADÁ - TCC

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
2017_tcc_rlmelo.pdf1,28 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.