Aprendizado por reforço profundo aplicado ao problema de alocação de veículos dinâmico e estocástico

Cordeiro, Francisco Edyvalberty Alenquer

Please use this identifier to cite or link to this item: http://repositorio.ufc.br/handle/riufc/75618

Type:	Dissertação
Title:	Aprendizado por reforço profundo aplicado ao problema de alocação de veículos dinâmico e estocástico
Title in English:	Deep reinforcement learning applied to the dynamic and stochastic vehicle allocation problem
Authors:	Cordeiro, Francisco Edyvalberty Alenquer
Advisor:	Pitombeira Neto, Anselmo Ramalho
Keywords in Brazilian Portuguese :	Otimização matemática;Simulação de eventos discretos;Aprendizado por reforço;Redes neurais (Computação);Q-learning;Processo de decisão semimarkoviano
Keywords in English :	Mathematical optimization;Discrete event simulation;Reinforcement learning;Neural networks (Computer science);Q-learning;Semi-Markov decision process
Knowledge Areas - CNPq:	CNPQ::CIENCIAS EXATAS E DA TERRA::MATEMATICA::MATEMATICA APLICADA
Issue Date:	20-Dec-2023
Citation:	CORDEIRO, Francisco Edyvalberty Alenquer. Aprendizado por reforço profundo aplicado ao problema de alocação de veículos dinâmico e estocástico. 2023. 106 f. Dissertação (Mestrado em Modelagem e Métodos Quantitativos) – Centro de Ciências, Universidade Federal do Ceará, Fortaleza, 2023.
Abstract in Brazilian Portuguese:	O problema de alocação de veículos dinâmico e estocástico consiste em decidir quais veículos atribuir a solicitações que surgem de maneira aleatória no tempo e no espaço. Este desafio abrange diversas situações práticas, como o transporte de cargas por caminhões, sistemas de atendimento de emergência e serviços de transporte por aplicativo. Neste estudo, o problema foi modelado como um processo de decisão semimarkoviano, permitindo tratar o tempo como uma variável contínua. Nessa abordagem, os momentos de decisão coincidem com eventos discretos, cujas durações são aleatórias. A aplicação dessa estratégia baseada em eventos resulta em uma significativa redução do espaço de decisões, diminuindo a complexidade dos problemas de alocação envolvidos. Além disso, mostra-se mais adequada para situações práticas quando comparada com os modelos de tempo discreto frequentemente utilizados na literatura. Para validar a abordagem proposta, foi desenvolvido um simulador de eventos discretos e realizado o treinamento de dois agentes tomadores de decisão utilizando o algoritmo de aprendizado por reforço chamado Double Deep Q-Learning. Os experimentos numéricos foram conduzidos em cenários realistas de Nova York, e os resultados da abordagem proposta foram comparados com heurísticas comumente empregadas na prática, evidenciando melhorias substanciais, incluindo a redução de até 50% nos tempos médios de espera em comparação com as demais políticas testadas.
Abstract:	The dynamic and stochastic vehicle allocation problem involves deciding which vehicles to assign to requests that arise randomly in time and space. This challenge includes various practical scenarios, such as the transportation of goods by trucks, emergency response systems, and app- based transportation services. In this study, the problem was modeled as a semi-Markov decision process, allowing the treatment of time as a continuous variable. In this approach, decision moments coincide with discrete events with random durations. The use of this event-based strategy results in a significant reduction in decision space, thereby reducing the complexity of the allocation problems involved. Furthermore, it proves to be more suitable for practical situations when compared to discrete-time models often used in the literature. To validate the proposed approach, a discrete event simulator was developed, and two decision-making agents were trained using the reinforcement learning algorithm called Double Deep Q-Learning. Numerical experiments were conducted in realistic scenarios in New York, and the results of the proposed approach were compared with commonly employed heuristics, demonstrating substantial improvements, including up to a 50% reduction in average waiting times compared to other tested policies.
URI:	http://repositorio.ufc.br/handle/riufc/75618
Author's Lattes:	http://lattes.cnpq.br/9677872188319644
Advisor's ORCID:	0000-0001-9234-8917
Advisor's Lattes:	http://lattes.cnpq.br/5661587413564713
Access Rights:	Acesso Aberto
Appears in Collections:	DEMA - Dissertações defendidas na UFC

Files in This Item:

File	Description	Size	Format
2023_dis_feacordeiro.pdf	Dissertação Edy Alenquer	13,84 MB	Adobe PDF	View/Open

Show full item record