Aplicação de técnicas de aprendizado por reforço na solução do problema de corte de estoque multiperíodo estocástico

Murta, Arthur Hermont Fonseca

Use este identificador para citar ou linkar para este item: http://repositorio.ufc.br/handle/riufc/70010

Registro completo de metadados

Campo DC	Valor	Idioma
dc.contributor.advisor	Pitombeira Neto, Anselmo Ramalho	-
dc.contributor.author	Murta, Arthur Hermont Fonseca	-
dc.date.accessioned	2023-01-09T12:13:34Z	-
dc.date.available	2023-01-09T12:13:34Z	-
dc.date.issued	2021	-
dc.identifier.citation	MURTA, Arthur Hermont Fonseca. Aplicação de técnicas de aprendizado por reforço na solução do problema de corte de estoque multiperíodo estocástico. 2021. 82 f. Dissertação (Mestrado em Modelagem e Métodos Quantitativos) - Centro de Ciências, Universidade Federal do Ceará, Fortaleza, 2021.	pt_BR
dc.identifier.uri	http://www.repositorio.ufc.br/handle/riufc/70010	-
dc.description.abstract	The cutting stock problem is a combinatorial optimization problem that consists of cutting larger objects in order to produce smaller pieces to meet a given demand in order to minimize material losses. This dissertation addresses up a multiperiod stochastic variant in which the problem is solved in multiple periods of time and we do not know exactly what the future demand will be, which is modeled as a random variable. This problem variant corresponds more closely to the reality of companies, which usually do not know in advance the demand for each time period. First, the stochastic multiperiod cutting stock problem was modeled as a Markovian decision process. A solution to the problem corresponds to an optimal decision policy, which is defined as what action to be taken every time to minimize the expected total cost. Exact algorithms to calculate an optimal policy require large computational effort when the problem size grows, then reinforcement learning techniques were used through an approximate policy iteration algorithm using a Bayesian filter. Computational experiments were performed to illustrate the application of the approach to real data on cutting steel bars in construction industry. The results indicate that the performance of the policy obtained by the proposed approach was up to fifty times better than the performance using a short-sighted policy, which does not take into account the future impact of decisions taken in the present.	pt_BR
dc.language.iso	pt_BR	pt_BR
dc.subject	Problema de corte de estoque	pt_BR
dc.subject	Aprendizado por reforço	pt_BR
dc.subject	Programação dinâmica aproximada	pt_BR
dc.subject	Otimização combinatória	pt_BR
dc.subject	Cutting stock problem	eng
dc.subject	Reinforcement learning	eng
dc.subject	Approximate dynamic programming	eng
dc.subject	Combinatorial optimization	eng
dc.title	Aplicação de técnicas de aprendizado por reforço na solução do problema de corte de estoque multiperíodo estocástico	pt_BR
dc.type	Dissertação	pt_BR
dc.description.abstract-ptbr	O problema de corte de estoque é um problema de otimização combinatória que consiste em cortar objetos maiores a fim de produzir peças menores para atender uma dada demanda de forma a minimizar as perdas de material. Nesta dissertação, aborda-se uma variante multiperíodo estocástica na qual o problema é resolvido em múltiplos períodos de tempo e não se sabe exatamente qual é a demanda futura, a qual é modelada como uma variável aleatória. Essa variante corresponde mais fielmente à realidade das empresas, em que normalmente não se conhece antecipadamente a demanda em cada período de tempo. Primeiramente, o problema de corte de estoque multiperíodo estocástico foi modelado como um processo de decisão markoviano. Uma solução para o problema corresponde a uma política de decisão ótima, a qual é definida como sendo qual ação a ser tomada a cada período de tempo de forma a minimizar o custo esperado total a longo prazo. Algoritmos exatos para calcular uma política ótima requerem grande esforço computacional quando o tamanho do problema cresce, por isso foram utilizadas técnicas de aprendizado por reforço por meio de um algoritmo de iteração de política aproximada com o uso de um filtro bayesiano. Experimentos computacionais foram realizados para ilustrar a aplicação da abordagem com uso de dados reais de corte de barras de aço em obras de construção civil. Os resultados indicam que o desempenho da política obtida pela abordagem proposta foi até cinquenta vezes melhor do que o desempenho utilizando uma política míope, a qual não leva em conta o impacto futuro de decisões tomadas no presente.	pt_BR
dc.title.en	Applying reinforcement learning techniques to the solution of the multi-period stochastic stock cutting problem	eng
Aparece nas coleções:	DEMA - Dissertações defendidas na UFC

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
dis_2021_ahfmurta.pdf		23,58 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Visualizar estatísticas