Please use this identifier to cite or link to this item:
http://repositorio.ufc.br/handle/riufc/79254
Type: | TCC |
Title: | Exploração de ambientes virtuais em jogos: uma abordagem baseada em aprendizado por reforço |
Authors: | Lima, Dhannyell Lukas Belmino |
Advisor: | Freitas, Gisele Azevedo de Araújo |
Keywords in Brazilian Portuguese : | Aprendizado por reforço;Ambientes virtuais;Zelda: Link’s awakening;Aprendizado de máquina;Ambientes virtuais |
Keywords in English : | Reinforcement learning;Virtual environments;Zelda: Link’s awakening;Machine learning |
Knowledge Areas - CNPq: | CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
Issue Date: | 2024 |
Citation: | LIMA, Dhannyell Lukas Belmino. Exploração de ambientes virtuais em jogos: uma abordagem baseada em aprendizado por reforço. 2024. 35 f. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) - Universidade Federal do Ceará, Fortaleza, 2024. |
Abstract in Brazilian Portuguese: | Este trabalho explora a técnica de aprendizado por reforço baseado no método de otimização de política proximal (PPO, na sigla em inglês) para treinar um modelo de aprendizado de máquina (ML, na sigla em inglês) a jogar um jogo virtual. Este método é amplamente reconhecido por sua eficiência e estabilidade em problemas de aprendizado por reforço, especialmente em cenários onde as recompensas podem ser desconhecidas ou difícil de definir. Aprendizado por reforço tem sido empregado em uma variedade de áreas, incluindo direção autônoma, recomendação de noticias, processamento de linguagem natural, testes e criação de jogos, controle de tráfego e descoberta de novos medicamentos. Foi escolhido o jogo Legend of Zelda: Link’s Awakening que é executado no console portátil da Nintendo chamado Game Boy lançado em 1993 para servir de ambiente de treinamento do modelo. A abordagem escolhida utiliza a biblioteca Pyboy para emular o jogo e executar várias instâncias em paralelo e a biblioteca Gymnasium para criar o modelo de aprendizado por reforço. Este modelo foi escolhido por ter um baixo custo de treinamento e ter bons resultados em ambientes determinísticos, de alta cardinalidade. O modelo também fornece um equilíbrio entre facilidade de implementação, complexidade das amostras e facilidade de ajuste. O PPO é projetado para atualizar a política de forma incremental, garantindo que as mudanças não sejam muito drásticas e que a política atualizada permaneça próxima da política anterior. O objetivo principal é maximizar as recompensas esperadas ao longo do tempo, ajustando continuamente as ações do agente baseando-se nas recompensas recebidas do ambiente. A exploração é um aspecto crucial no aprendizado por reforço, pois permite que o agente descubra novas estratégias e ações que podem levar a maiores recompensas no futuro. Este trabalho discute o algoritmo e a metodologia utilizada para o treinamento do modelo. |
Abstract: | This work explores the reinforcement learning technique based on the proximal policy optimization (PPO) method to train a machine learning (ML) model to play a virtual game. This method is widely recognized for its efficiency and stability in reinforcement learning problems, especially in scenarios where the rewards may be unknown or difficult to define. Reinforcement learning has been used in a variety of areas, including autonomous driving, news recommendation, natural language processing, game testing and creation, traffic control, and drug discovery. The game Legend of Zelda: Link’s Awakening, which runs on Nintendo’s portable console called Game Boy released in 1993, was chosen to serve as the training environment for the model. The chosen approach uses the Pyboy library to emulate the game and run multiple instances in parallel and the Gymnasium library to create the reinforcement learning model. This model was chosen because it has a low training cost and performs well in deterministic, high-cardinality environments. The model also provides a balance between ease of implementation, sample complexity, and ease of adjustment. PPO is designed to update the policy incrementally, ensuring that changes are not too drastic and that the updated policy remains close to the previous policy. The main goal is to maximize expected rewards over time by continuously adjusting the agent’s actions based on the rewards received from the environment. Exploration is a crucial aspect of reinforcement learning, as it allows the agent to discover new strategies and actions that may lead to greater rewards in the future. This paper discusses the algorithm and methodology used to train the model. |
URI: | http://repositorio.ufc.br/handle/riufc/79254 |
Author's Lattes: | http://lattes.cnpq.br/9623967725686101 |
Advisor's Lattes: | http://lattes.cnpq.br/9711458806537640 |
Access Rights: | Acesso Aberto |
Appears in Collections: | ENGENHARIA DE COMPUTAÇÃO - Monografias |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
2024_tcc_dlblima.pdf | 2,66 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.