SumOpinions: sumarização automática de opiniões sobre pontos turísticos

Freires Junior, João Holanda

Please use this identifier to cite or link to this item: http://repositorio.ufc.br/handle/riufc/52200

Type:	Dissertação
Title:	SumOpinions: sumarização automática de opiniões sobre pontos turísticos
Title in English:	SumOpinions: automatic summarization of reviews about tourist places
Authors:	Freires Junior, João Holanda
Advisor:	Macêdo, José Antonio Fernandes de
Co-advisor:	Brilhante, Igo Ramalho
Keywords:	Aprendizado de máquina;Sumarização de textos;Modelagem de tópicos;Mineração de opinião
Issue Date:	2018
Citation:	FREIRES JUNIOR, João Holanda. SumOpinions: sumarização automática de opiniões sobre pontos turísticos. 2018. 80 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal do Ceará, Fortaleza, 2018.
Abstract in Brazilian Portuguese:	As plataformas de viagens on-line (e.g. TripAdvisor) tornaram-se muito populares nos últimos anos, pois permitiram o acesso fácil à uma grande quantidade de opiniões, a partir das experiências prévias de seus usuários sobre pontos turísticos, acomodações, restaurantes, serviços, etc. Dessa forma, um viajante pode usar tais informações para criar um planejamento de viagem mais assertivo e adequado às suas preferências. Porém, dado o grande volume de opiniões dos usuários, a leitura e seleção de opiniões relevantes é demorada e cansativa, tornando-se inviável de ser realizada manualmente. Neste contexto, este trabalho propõe um novo método para realizar a sumarização de opiniões, visando a detecção de tópicos relevantes sobre pontos turísticos, com o objetivo de reduzir a quantidade de avaliações a serem lidas e ampliar a cobertura e diversidade de assuntos relevantes representados no sumário. Para validar a abordagem proposta, coletamos dados do TripAdvisor e aplicamos técnicas de modelagem de tópicos, processamento de linguagem natural, aprendizado de máquina, similaridade de texto e análise de sentimento para construir o sumário referente às opiniões postadas pelos usuários. Experimentos foram realizados e comparados com um método que representa o estado da arte em sumarização de multi-documentos. Os resultados foram avaliados com base em três pontos de avaliação: cobertura de tópicos, redundância dos sumários e dificuldade de leitura. A diversidade de tópicos cobertos relacionados aos pontos turísticos apresentou um aumento considerável de assuntos abordados no sumário em relação ao algoritmo competidor. Em relação à análise de redundância, os resultados demonstraram que foram gerados sumários com baixa redundância. Para as avaliações de dificuldade de leitura, os resultados também foram satisfatórios, dado que os sumários não eram difíceis de serem lidos.
Abstract:	Online travel platforms (e.g. TripAdvisor) have become very popular in recent years as they have provided easy access to a wide range of opinions, from their users’ previous experiences of tourist places, accommodations, restaurants, services, etc. In this way, travelers can use such information to create more assertive travel planning according to their preferences. However, given the large volume of user opinions, the reading and selection of relevant opinions are time-consuming and tiring, making it unfeasible to be performed manually. In this context, this work proposes a new method for summarizing opinions, aiming at the detection of relevant topics on tourist places, with the objective of reducing the number of opinions to be read and to expand the coverage of the relevant issues represented in the summary. To validate the proposed approach, we collected data from TripAdvisor and applied topic modeling algorithms, natural language processing techniques, machine learning, text similarity, and sentiment analysis to construct the summary about the opinions posted by users. Experiments were performed and compared with a state-of-the-art method in multi-document summarization. The results were evaluated based on three evaluation points: topic coverage, summary redundancy and reading difficulty. The diversity of covered topics related to the tourist places presented a considerable increase of subjects addressed in the summary in relation to the competing algorithm. Regarding the redundancy analysis, the results showed that summaries with low redundancy were generated. For assessments of reading difficulty, the results were also satisfactory, since the summaries were not difficult to be read.
URI:	http://www.repositorio.ufc.br/handle/riufc/52200
Appears in Collections:	DCOMP - Dissertações defendidas na UFC

Files in This Item:

File	Description	Size	Format
2018_dis_jhfreiresjunior.pdf		1,51 MB	Adobe PDF	View/Open

Show full item record