Use este identificador para citar ou linkar para este item:
http://repositorio.ufc.br/handle/riufc/79254
Tipo: | TCC |
Título: | Exploração de ambientes virtuais em jogos: uma abordagem baseada em aprendizado por reforço |
Autor(es): | Lima, Dhannyell Lukas Belmino |
Orientador: | Freitas, Gisele Azevedo de Araújo |
Palavras-chave em português: | Aprendizado por reforço;Ambientes virtuais;Zelda: Link’s awakening;Aprendizado de máquina;Ambientes virtuais |
Palavras-chave em inglês: | Reinforcement learning;Virtual environments;Zelda: Link’s awakening;Machine learning |
CNPq: | CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
Data do documento: | 2024 |
Citação: | LIMA, Dhannyell Lukas Belmino. Exploração de ambientes virtuais em jogos: uma abordagem baseada em aprendizado por reforço. 2024. 35 f. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) - Universidade Federal do Ceará, Fortaleza, 2024. |
Resumo: | Este trabalho explora a técnica de aprendizado por reforço baseado no método de otimização de política proximal (PPO, na sigla em inglês) para treinar um modelo de aprendizado de máquina (ML, na sigla em inglês) a jogar um jogo virtual. Este método é amplamente reconhecido por sua eficiência e estabilidade em problemas de aprendizado por reforço, especialmente em cenários onde as recompensas podem ser desconhecidas ou difícil de definir. Aprendizado por reforço tem sido empregado em uma variedade de áreas, incluindo direção autônoma, recomendação de noticias, processamento de linguagem natural, testes e criação de jogos, controle de tráfego e descoberta de novos medicamentos. Foi escolhido o jogo Legend of Zelda: Link’s Awakening que é executado no console portátil da Nintendo chamado Game Boy lançado em 1993 para servir de ambiente de treinamento do modelo. A abordagem escolhida utiliza a biblioteca Pyboy para emular o jogo e executar várias instâncias em paralelo e a biblioteca Gymnasium para criar o modelo de aprendizado por reforço. Este modelo foi escolhido por ter um baixo custo de treinamento e ter bons resultados em ambientes determinísticos, de alta cardinalidade. O modelo também fornece um equilíbrio entre facilidade de implementação, complexidade das amostras e facilidade de ajuste. O PPO é projetado para atualizar a política de forma incremental, garantindo que as mudanças não sejam muito drásticas e que a política atualizada permaneça próxima da política anterior. O objetivo principal é maximizar as recompensas esperadas ao longo do tempo, ajustando continuamente as ações do agente baseando-se nas recompensas recebidas do ambiente. A exploração é um aspecto crucial no aprendizado por reforço, pois permite que o agente descubra novas estratégias e ações que podem levar a maiores recompensas no futuro. Este trabalho discute o algoritmo e a metodologia utilizada para o treinamento do modelo. |
Abstract: | This work explores the reinforcement learning technique based on the proximal policy optimization (PPO) method to train a machine learning (ML) model to play a virtual game. This method is widely recognized for its efficiency and stability in reinforcement learning problems, especially in scenarios where the rewards may be unknown or difficult to define. Reinforcement learning has been used in a variety of areas, including autonomous driving, news recommendation, natural language processing, game testing and creation, traffic control, and drug discovery. The game Legend of Zelda: Link’s Awakening, which runs on Nintendo’s portable console called Game Boy released in 1993, was chosen to serve as the training environment for the model. The chosen approach uses the Pyboy library to emulate the game and run multiple instances in parallel and the Gymnasium library to create the reinforcement learning model. This model was chosen because it has a low training cost and performs well in deterministic, high-cardinality environments. The model also provides a balance between ease of implementation, sample complexity, and ease of adjustment. PPO is designed to update the policy incrementally, ensuring that changes are not too drastic and that the updated policy remains close to the previous policy. The main goal is to maximize expected rewards over time by continuously adjusting the agent’s actions based on the rewards received from the environment. Exploration is a crucial aspect of reinforcement learning, as it allows the agent to discover new strategies and actions that may lead to greater rewards in the future. This paper discusses the algorithm and methodology used to train the model. |
URI: | http://repositorio.ufc.br/handle/riufc/79254 |
Currículo Lattes do(s) Autor(es): | http://lattes.cnpq.br/9623967725686101 |
Currículo Lattes do Orientador: | http://lattes.cnpq.br/9711458806537640 |
Tipo de Acesso: | Acesso Aberto |
Aparece nas coleções: | ENGENHARIA DE COMPUTAÇÃO - Monografias |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
2024_tcc_dlblima.pdf | 2,66 MB | Adobe PDF | Visualizar/Abrir |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.