Please use this identifier to cite or link to this item: http://repositorio.ufc.br/handle/riufc/53756
Type: Dissertação
Title: Uma solução baseada em template e multi-solução para geração de textos a partir de triplas
Title in English: A template-based multi-solution for text generation from triples
Authors: Mota, Abelardo Vieira
Advisor: Macêdo, José Antonio Fernandes de
Co-advisor: Silva, Ticiana Linhares Coelho da
Keywords: Geração de linguagem natural;Bases de conhecimento;Geração dados-para-texto
Issue Date: 2020
Citation: MOTA, Abelardo Vieira. Uma solução baseada em template e multi-solução para geração de textos a partir de triplas. 2020. 87 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal do Ceará, Fortaleza, 2020.
Abstract in Brazilian Portuguese: Com a evolução dos estudos sobre Web Semântica, o formato de representação de dados RDF foi proposto e diversas bases de conhecimento foram criadas com ele. Com isso, muita informação se tornou disponível para processamento por computador e para usuários especialistas, mas ao mesmo tempo essa informação é inacessível para um usuário leigo. Uma das formas de tornar esse tipo de dado mais acessível é representá-lo utilizando linguagem natural, o que pode ser custoso se feito manualmente. Esse contexto motiva o desenvolvimento de soluções que gerem automaticamente textos a partir de bases de dados RDF. Existem várias soluções integradas propostas para esse fim, mas elas exigem grandes bases de dados de alta qualidade para treinamento, carecem de controles sobre como o texto será gerado e não oferecem garantias de que o texto gerado verbaliza todos e somente os dados de entrada. Este trabalho aborda esses problemas propondo uma solução modular baseada em template e com abordagem de múltiplas soluções, que gera múltiplos textos durante o processo de geração. O uso de templates exige uma quantidade de dados proporcional à variedade de textos que se quer gerar, e a modularização da solução permite um maior controle sobre o processo de geração, bem como a possibilidade de dar maiores garantias quanto ao resultado final. Os experimentos realizados para validar a solução proposta utilizaram uma base de dados real e demonstram que a abordagem proposta gera textos de melhor qualidade e supera alguns modelos do estado da arte, em relação aos métodos de avaliação BLEU, METEOR e TER. Além da avaliação com métodos automáticos, foi feita também uma inspeção em uma amostra dos textos gerados de forma a evidenciar limitações e possíveis pontos de melhoria.
Abstract: With the evolution of studies on the Semantic Web, the RDF data representation format was proposed and several knowledge bases were created with it. As a result, a lot of information has become available for computer processing and for expert users, but at the same time this information is inaccessible to a lay user. One way to make this type of data more accessible is to represent it using natural language, which can be costly if done manually. This context motivates the development of solutions that automatically generate texts from RDF databases. There are several integrated solutions proposed for this purpose, but they require large, high-quality databases for training, they lack controls over how the text will be generated and do not offer guarantees that the generated text verbalizes all and only the input data. This work addresses these problems by proposing a modular template-based solution based and with a multiple solution approach, which generates multiple texts during the generation process. The use of templates requires an amount of data proportional to the variety of texts to be generated, and the modularization of the solution allows greater control over the generation process, as well the possibility of giving greater guarantees over the final result. The experiments carried out to validate the proposed solution used a real database and demonstrate that the proposed approach generates better quality texts and outperforms some state-of-the-art solutions, regarding the BLEU, METEOR and TER evaluation methods. In addition to the evaluation with automatic methods, an inspection was also carried out on a sample of the generated texts in order to highlight limitations and possible improvement points.
URI: http://www.repositorio.ufc.br/handle/riufc/53756
Appears in Collections:DCOMP - Dissertações defendidas na UFC

Files in This Item:
File Description SizeFormat 
2020_dis_avmota.pdf687,57 kBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.