Exploração de ambientes virtuais em jogos: uma abordagem baseada em aprendizado por reforço

Lima, Dhannyell Lukas Belmino

Use este identificador para citar ou linkar para este item: http://repositorio.ufc.br/handle/riufc/79254

Tipo:	TCC
Título:	Exploração de ambientes virtuais em jogos: uma abordagem baseada em aprendizado por reforço
Autor(es):	Lima, Dhannyell Lukas Belmino
Orientador:	Freitas, Gisele Azevedo de Araújo
Palavras-chave em português:	Aprendizado por reforço;Ambientes virtuais;Zelda: Link’s awakening;Aprendizado de máquina;Ambientes virtuais
Palavras-chave em inglês:	Reinforcement learning;Virtual environments;Zelda: Link’s awakening;Machine learning
CNPq:	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Data do documento:	2024
Citação:	LIMA, Dhannyell Lukas Belmino. Exploração de ambientes virtuais em jogos: uma abordagem baseada em aprendizado por reforço. 2024. 35 f. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) - Universidade Federal do Ceará, Fortaleza, 2024.
Resumo:	Este trabalho explora a técnica de aprendizado por reforço baseado no método de otimização de política proximal (PPO, na sigla em inglês) para treinar um modelo de aprendizado de máquina (ML, na sigla em inglês) a jogar um jogo virtual. Este método é amplamente reconhecido por sua eficiência e estabilidade em problemas de aprendizado por reforço, especialmente em cenários onde as recompensas podem ser desconhecidas ou difícil de definir. Aprendizado por reforço tem sido empregado em uma variedade de áreas, incluindo direção autônoma, recomendação de noticias, processamento de linguagem natural, testes e criação de jogos, controle de tráfego e descoberta de novos medicamentos. Foi escolhido o jogo Legend of Zelda: Link’s Awakening que é executado no console portátil da Nintendo chamado Game Boy lançado em 1993 para servir de ambiente de treinamento do modelo. A abordagem escolhida utiliza a biblioteca Pyboy para emular o jogo e executar várias instâncias em paralelo e a biblioteca Gymnasium para criar o modelo de aprendizado por reforço. Este modelo foi escolhido por ter um baixo custo de treinamento e ter bons resultados em ambientes determinísticos, de alta cardinalidade. O modelo também fornece um equilíbrio entre facilidade de implementação, complexidade das amostras e facilidade de ajuste. O PPO é projetado para atualizar a política de forma incremental, garantindo que as mudanças não sejam muito drásticas e que a política atualizada permaneça próxima da política anterior. O objetivo principal é maximizar as recompensas esperadas ao longo do tempo, ajustando continuamente as ações do agente baseando-se nas recompensas recebidas do ambiente. A exploração é um aspecto crucial no aprendizado por reforço, pois permite que o agente descubra novas estratégias e ações que podem levar a maiores recompensas no futuro. Este trabalho discute o algoritmo e a metodologia utilizada para o treinamento do modelo.
Abstract:	This work explores the reinforcement learning technique based on the proximal policy optimization (PPO) method to train a machine learning (ML) model to play a virtual game. This method is widely recognized for its efficiency and stability in reinforcement learning problems, especially in scenarios where the rewards may be unknown or difficult to define. Reinforcement learning has been used in a variety of areas, including autonomous driving, news recommendation, natural language processing, game testing and creation, traffic control, and drug discovery. The game Legend of Zelda: Link’s Awakening, which runs on Nintendo’s portable console called Game Boy released in 1993, was chosen to serve as the training environment for the model. The chosen approach uses the Pyboy library to emulate the game and run multiple instances in parallel and the Gymnasium library to create the reinforcement learning model. This model was chosen because it has a low training cost and performs well in deterministic, high-cardinality environments. The model also provides a balance between ease of implementation, sample complexity, and ease of adjustment. PPO is designed to update the policy incrementally, ensuring that changes are not too drastic and that the updated policy remains close to the previous policy. The main goal is to maximize expected rewards over time by continuously adjusting the agent’s actions based on the rewards received from the environment. Exploration is a crucial aspect of reinforcement learning, as it allows the agent to discover new strategies and actions that may lead to greater rewards in the future. This paper discusses the algorithm and methodology used to train the model.
URI:	http://repositorio.ufc.br/handle/riufc/79254
Currículo Lattes do(s) Autor(es):	http://lattes.cnpq.br/9623967725686101
Currículo Lattes do Orientador:	http://lattes.cnpq.br/9711458806537640
Tipo de Acesso:	Acesso Aberto
Aparece nas coleções:	ENGENHARIA DE COMPUTAÇÃO - Monografias

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
2024_tcc_dlblima.pdf		2,66 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas