Finding maximum patterns using decision diagrams

Albuquerque, Lucas Braga de

Use este identificador para citar ou linkar para este item: http://repositorio.ufc.br/handle/riufc/56609

Registro completo de metadados

Campo DC	Valor	Idioma
dc.contributor.advisor	Bonates, Tibérius de Oliveira e	-
dc.contributor.author	Albuquerque, Lucas Braga de	-
dc.date.accessioned	2021-02-19T09:38:19Z	-
dc.date.available	2021-02-19T09:38:19Z	-
dc.date.issued	2020	-
dc.identifier.citation	ALBUQUERQUE, Lucas Braga de. Finding maximum patterns using decision diagrams. 2020. 71 f. Dissertação (Mestrado em Modelagem e Métodos Quantitativos) - Centro de Ciências, Universidade Federal do Ceará, 2020.	pt_BR
dc.identifier.uri	http://www.repositorio.ufc.br/handle/riufc/56609	-
dc.description.abstract	Logical Analysis of Data (LAD) is a rule-based algorithm for supervised classification that is based on optimization, combinatorics, and Boolean functions. A central concept in LAD is that of a pattern, which summarizes knowledge extracted from a given dataset. Let D be a set of binary vectors partitioned into a set of positive and a set of negative observations. A positive pattern is a subcube of the n-dimensional hypercube having a nonempty intersection with the positive part of D, and an empty intersection with the negative part of D. An observation is covered by a pattern if it belongs to the corresponding subcube, and the coverage of a pattern is the number of observations in D covered by it. The maximum positive a-pattern problem consists in finding a positive pattern whose coverage is maximum among those that cover a given positive observation a in D, which amounts to solving a nonlinear set covering problem. A generalization of it, the maximum positive pattern problem, asks for a positive pattern of maximum coverage among all patterns, not only among those covering a particular observation. We review all integer linear programming (ILP) approaches from the literature for these two problems and empirically evaluate them using a commercial ILP software. Furthermore, we introduce a dynamic programming model, a merging rule, and all necessary heuristics in order to model and solve the two problems using a recently-developed optimization methodology based on decision diagrams (DDs). The methodology consists of a branch-and-bound (BAB) algorithm, in which DDs play the traditional role of the linear programming relaxation, as well as that of primal heuristics. We also discuss relevant implementation details in order to enhance the performance of the DD-based BAB. Lastly, we compare the performance of our DD-based solver with that of the ILP approaches from the literature. Our results indicate that a straightforward DD-based branch-and-bound implementation typically produces higher quality solutions than a commercial MILP software within a common time limit.	pt_BR
dc.language.iso	pt_BR	pt_BR
dc.subject	Padrão máximo	pt_BR
dc.subject	Análise lógica de dados	pt_BR
dc.subject	Diagrama de decisão	pt_BR
dc.subject	Branch-and-bound	pt_BR
dc.subject	Maximum pattern	pt_BR
dc.subject	Logical analysis of data	pt_BR
dc.subject	Decision diagram	pt_BR
dc.title	Finding maximum patterns using decision diagrams	pt_BR
dc.type	Dissertação	pt_BR
dc.description.abstract-ptbr	Análise Lógica de Dados (ALD) é um algoritmo de classificação supervisionada baseado em regras, o qual é fundamentado em otimização, combinatória, e funções Booleanas. Um conceito central em ALD é o de padrão, o qual resume informação extraída de um dado conjunto de dados. Seja D um conjunto de vetores binários particionado em um conjunto de observações positivas e um conjunto de observações negativas. Um padrão positivo é um subcubo do hipercubo n-dimensional, o qual possui uma interseção não-vazia com a parte positiva de D, e uma interseção vazia com a parte negativa de D. Uma observação é coberta por um padrão se pertence ao subcubo correspondente, e a cobertura de um padrão é o número de observações em D cobertas por ele. O problema do a-padrão positivo máximo consiste em encontrar um padrão cuja cobertura é máxima entre todos aqueles que cobrem uma dada observação positiva a em D, o que corresponde a resolver um problema de cobertura de conjuntos não-linear. Uma generalização do problema, o problema do padrão positivo máximo, busca um padrão positivo cuja cobertura é máxima entre todos os padrões, não apenas aqueles que cobrem uma observação em particular. Revisamos todas as abordagens por programação linear inteira (PLI) para esses dois problemas encontradas na literatura e as avaliamos empiricamente usando um software comercial de PLI. Além disso, introduzimos um modelo de programação dinâmica, uma regra de mescla, e todas as heurísticas necessárias para modelar e resolver os dois problemas utilizando-se de uma metodologia de otimização baseada em diagramas de decisão (DDs), a qual foi desenvolvida recentemente. A metodologia consiste em um algoritmo de branch-and-bound (BAB), no qual DDs fazem o papel tradicional da relaxação linear, assim como o de heurísticas primais. Também discutimos detalhes de implementação relevantes com o intuito de melhorar a performance do BAB baseado em DDs. Por fim, comparamos a performance do nosso resolvedor baseado em DDs com as abordagens de PLI da literatura. Nossos resultados sugerem que uma implementação direta de um BAB baseado em DDs produz, em geral, soluções de mais qualidade do que um software comercial de PLI, dentro de um mesmo limite de tempo.	pt_BR
Aparece nas coleções:	DEMA - Dissertações defendidas na UFC

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
2020_dis_lbalbuquerque.pdf		718,61 kB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Visualizar estatísticas