BuriedBrains: um ambiente multiagente inspirado em roguelike para avaliação de memória e tomada de decisão

Silva, Ismael Soares da

Use este identificador para citar ou linkar para este item: http://repositorio.ufc.br/handle/riufc/86007

Tipo:	TCC
Título:	BuriedBrains: um ambiente multiagente inspirado em roguelike para avaliação de memória e tomada de decisão
Autor(es):	Silva, Ismael Soares da
Orientador:	Souza, Thiago Iachiley Araújo de
Palavras-chave em português:	Aprendizado por reforço;Ambientes parcialmente observáveis;Sistemas multiagente;Comportamento emergente;Inteligência artificial
Palavras-chave em inglês:	Reinforcement learning;Partially observable environments;Multi-agent systems;Emergent behavior;Artificial intelligence
CNPq:	CNPQ::ENGENHARIAS
Data do documento:	2025
Citação:	SILVA, Ismael Soares da. BuriedBrains: um ambiente multiagente inspirado em roguelike para avaliação de memória e tomada de decisão. 2025. 102 f. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) – Campus de Sobral, Universidade Federal do Ceará, Sobral, 2025.
Resumo:	Este trabalho apresenta o desenvolvimento e a validação do BuriedBrains, um ambiente de simulação multiagente fundamentado em geração procedural e observabilidade parcial, estruturado por meio de grafos dinâmicos híbridos. O objetivo principal consiste em mensurar o desempenho de agentes de Aprendizado por Reforço (RL) na resolução de problemas de planejamento de longo prazo e generalização sob condições de permadeath e restrição de recursos. A topologia do ambiente, inspirada em mecânicas do gênero roguelike — especificamente o título Buriedbornes (Nussygame, 2016) —, utiliza Grafos Acíclicos Dirigidos (DAGs) para as Zonas de Progressão e grafos cíclicos para os Santuários. Essas estruturas demandam gerenciamento de inventário e habilidades, uma vez que as transições de estado resultam em alterações persistentes em variáveis como Karma e na probabilidade de sobrevivência do agente. A metodologia consistiu em um estudo comparativo para isolar o impacto da recorrência temporal, contrastando uma arquitetura reativa (PPO) com uma recorrente (LSTM). Ambos os modelos foram otimizados via Hyperparameter Optimization (HPO) e integrados a mecanismos de SelfAttention. Os dados sugerem que as características do BuriedBrains restringem o desempenho de modelos reativos sob as condições testadas. Essa limitação reflete-se na estabilização do PPO em um patamar de 65% de Variância Explicada (EV), resultado que se manteve constante mesmo com o aumento da complexidade da rede ou a expansão do horizonte de amostragem. O agente recorrente apresentou desempenho 24% superior nos testes de Otimização de Hiperparâmetros e atingiu 80% de variância explicada. Os resultados sugerem que a arquitetura foi capaz de sustentar políticas voltadas à especialização de atributos e apresentar padrões de interação multiagente. Análises via ferramentas de visualização identificaram a convergência para a estabilização em estados de não-agressão recíproca, em que a memória permitiu a otimização da longevidade do episódio em detrimento de interações de soma zero. Os resultados obtidos com o BuriedBrains sugerem que a integração de mecânicas de roguelike estabelece um ambiente no qual a reatividade simples apresenta limitações, sugerindo a necessidade de arquiteturas que incorporem mecanismos de persistência de estados e processamento de sequências temporais.
Abstract:	This work presents the development and validation of BuriedBrains, a multi-agent simulation environment based on procedural generation and partial observability, structured through hybrid dynamic graphs. The primary objective is to measure the performance of Reinforcement Learning (RL) agents in solving long-term planning and generalization problems under conditions of permadeath and resource constraints. The environment’s topology, inspired by roguelike mechanics — specifically the title Buriedbornes (Nussygame, 2016) —, utilizes Directed Acyclic Graphs (DAGs) for Progression Zones and cyclic graphs for Sanctuaries. These structures demand inventory and skill management, as state transitions result in persistent changes to variables such as Karma and the agent’s survival probability. The methodology consisted of a comparative study to isolate the impact of temporal recurrence, contrasting a reactive architecture (PPO) with a recurrent one (LSTM). Both models were refined through Hyperparameter Optimization (HPO) and integrated with Self-Attention mechanisms. Data suggests that the characteristics of BuriedBrains restrict the performance of reactive models under the tested conditions, as reflected by PPO’s stabilization at a 65% Explained Variance (EV) plateau, which remained constant despite increases in network complexity or sampling horizon. The recurrent agent demonstrated 24% superior performance in HPO tests and reached 80% explained variance. Results suggest the architecture was capable of sustaining policies focused on attribute specialization and exhibiting multi-agent interaction patterns. Visualization-based analysis identified convergence toward reciprocal non-aggression states, where memory enabled the optimization of episode longevity over zero-sum interactions. BuriedBrains thus serves as a benchmark for evaluating long-term temporal dependency resolution and decision-making in autonomous systems.
URI:	http://repositorio.ufc.br/handle/riufc/86007
ORCID do(s) Autor(es):	https://orcid.org/0009-0000-6583-8400
Currículo Lattes do(s) Autor(es):	http://lattes.cnpq.br/4259610385995352
Currículo Lattes do Orientador:	http://lattes.cnpq.br/9056896787859991
Tipo de Acesso:	Acesso Aberto
Aparece nas coleções:	ENGENHARIA DE COMPUTAÇÃO-SOBRAL - Monografias

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
2025_tcc_issilva.pdf		57,14 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas