Please use this identifier to cite or link to this item:
http://repositorio.ufc.br/handle/riufc/52200
Type: | Dissertação |
Title: | SumOpinions: sumarização automática de opiniões sobre pontos turísticos |
Title in English: | SumOpinions: automatic summarization of reviews about tourist places |
Authors: | Freires Junior, João Holanda |
Advisor: | Macêdo, José Antonio Fernandes de |
Co-advisor: | Brilhante, Igo Ramalho |
Keywords: | Aprendizado de máquina;Sumarização de textos;Modelagem de tópicos;Mineração de opinião |
Issue Date: | 2018 |
Citation: | FREIRES JUNIOR, João Holanda. SumOpinions: sumarização automática de opiniões sobre pontos turísticos. 2018. 80 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal do Ceará, Fortaleza, 2018. |
Abstract in Brazilian Portuguese: | As plataformas de viagens on-line (e.g. TripAdvisor) tornaram-se muito populares nos últimos anos, pois permitiram o acesso fácil à uma grande quantidade de opiniões, a partir das experiências prévias de seus usuários sobre pontos turísticos, acomodações, restaurantes, serviços, etc. Dessa forma, um viajante pode usar tais informações para criar um planejamento de viagem mais assertivo e adequado às suas preferências. Porém, dado o grande volume de opiniões dos usuários, a leitura e seleção de opiniões relevantes é demorada e cansativa, tornando-se inviável de ser realizada manualmente. Neste contexto, este trabalho propõe um novo método para realizar a sumarização de opiniões, visando a detecção de tópicos relevantes sobre pontos turísticos, com o objetivo de reduzir a quantidade de avaliações a serem lidas e ampliar a cobertura e diversidade de assuntos relevantes representados no sumário. Para validar a abordagem proposta, coletamos dados do TripAdvisor e aplicamos técnicas de modelagem de tópicos, processamento de linguagem natural, aprendizado de máquina, similaridade de texto e análise de sentimento para construir o sumário referente às opiniões postadas pelos usuários. Experimentos foram realizados e comparados com um método que representa o estado da arte em sumarização de multi-documentos. Os resultados foram avaliados com base em três pontos de avaliação: cobertura de tópicos, redundância dos sumários e dificuldade de leitura. A diversidade de tópicos cobertos relacionados aos pontos turísticos apresentou um aumento considerável de assuntos abordados no sumário em relação ao algoritmo competidor. Em relação à análise de redundância, os resultados demonstraram que foram gerados sumários com baixa redundância. Para as avaliações de dificuldade de leitura, os resultados também foram satisfatórios, dado que os sumários não eram difíceis de serem lidos. |
Abstract: | Online travel platforms (e.g. TripAdvisor) have become very popular in recent years as they have provided easy access to a wide range of opinions, from their users’ previous experiences of tourist places, accommodations, restaurants, services, etc. In this way, travelers can use such information to create more assertive travel planning according to their preferences. However, given the large volume of user opinions, the reading and selection of relevant opinions are time-consuming and tiring, making it unfeasible to be performed manually. In this context, this work proposes a new method for summarizing opinions, aiming at the detection of relevant topics on tourist places, with the objective of reducing the number of opinions to be read and to expand the coverage of the relevant issues represented in the summary. To validate the proposed approach, we collected data from TripAdvisor and applied topic modeling algorithms, natural language processing techniques, machine learning, text similarity, and sentiment analysis to construct the summary about the opinions posted by users. Experiments were performed and compared with a state-of-the-art method in multi-document summarization. The results were evaluated based on three evaluation points: topic coverage, summary redundancy and reading difficulty. The diversity of covered topics related to the tourist places presented a considerable increase of subjects addressed in the summary in relation to the competing algorithm. Regarding the redundancy analysis, the results showed that summaries with low redundancy were generated. For assessments of reading difficulty, the results were also satisfactory, since the summaries were not difficult to be read. |
URI: | http://www.repositorio.ufc.br/handle/riufc/52200 |
Appears in Collections: | DCOMP - Dissertações defendidas na UFC |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
2018_dis_jhfreiresjunior.pdf | 1,51 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.