Athena: a wise database fine tuning mechanism

Petrola, Laura Maria Alencar Leal

Use este identificador para citar ou linkar para este item: http://repositorio.ufc.br/handle/riufc/84772

Tipo:	Dissertação
Título:	Athena: a wise database fine tuning mechanism
Título em inglês:	Athena: a wise database fine tuning mechanism
Autor(es):	Petrola, Laura Maria Alencar Leal
Orientador:	Brayner, Angelo Roncalli Alencar
Coorientador:	Silva, José Wellington Franco da
Palavras-chave em português:	Text-to-SQL;Otimização de banco de dados;LLMs;Agentes autônomos;Indexação adaptativa
Palavras-chave em inglês:	Text-to-SQL;Database optimization;LLMs;Autonomous agents;Adaptive indexing
CNPq:	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Data do documento:	2026
Citação:	PETROLA, Laura Maria Alencar Leal. Athena: a wise database fine tuning mechanism. 2026. 99 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal do Ceará, Fortaleza, 2026.
Resumo:	A tradução de linguagem natural para consultas SQL (Text-to-SQL) avançou significativamente com o surgimento de Grandes Modelos de Linguagem (LLMs). No entanto, abordagens convencionais frequentemente falham em dois aspectos críticos: a suscetibilidade a alucinações de esquema (Schema Linking) e a geração de consultas ineficientes que ignoram o desempenho do banco de dados. Este trabalho apresenta o Athena, um agente SQL auto-adaptativo projetado para atuar não apenas como um tradutor, mas como um Administrador de Banco de Dados (DBA) autônomo. A arquitetura proposta implementa um pipeline de refinamento sequencial composto por três módulos: Aterramento, Processamento Cognitivo e Execução Física. Para mitigar alucinações, emprega-se uma estratégia de Geração Aumentada por Recuperação (RAG) que injeta exemplos few-shot baseados em similaridade semântica. O núcleo cognitivo, impulsionado pelo modelo DeepSeek Coder, opera em duplo estágio: primeiro traduzindo a intenção do usuário e, subsequentemente, refinando o código através de uma base de conhecimento heurística fundamentada em Álgebra Relacional e literatura acadêmica (Are-SQL). Finalmente, o sistema introduz um mecanismo de "Test-Drive" para otimização física, onde índices candidatos são criados provisoriamente e validados através de uma regra de melhoria de 10%, garantindo que apenas otimizações empiricamente eficazes sejam mantidas. Experimentos realizados no benchmark TPC-H sobre PostgreSQL demonstram que o Athena supera abordagens baseadas em GPT-4 na adesão a regras de reescrita e alcança reduções drásticas na latência de consultas complexas (de 281s para 3,9s), validando a eficácia da arquitetura híbrida proposta.
Abstract:	The translation of natural language into SQL queries (Text-to-SQL) has advanced significantly with the advent of Large Language Models (LLMs). However, conventional approaches often fail in two critical aspects: susceptibility to schema hallucinations (Schema Linking) and the generation of inefficient queries that disregard database performance. This work presents Athena, a self-adaptive SQL agent designed to act not merely as a translator, but as an autonomous Database Administrator (DBA). The proposed architecture implements a sequential refinement pipeline composed of three modules: Grounding, Cognitive Processing, and Physical Execution. To mitigate hallucinations, a Retrieval-Augmented Generation (RAG) strategy is employed, injecting semantic few-shot examples into the context. The cognitive core, driven by the DeepSeek Coder model, operates in a dual-stage process: first translating the user’s intent and subsequently refining the code via a heuristic knowledge base grounded in Relational Algebra and academic literature (Are-SQL). Finally, the system introduces a "Test-Drive" mechanism for physical optimization, where candidate indexes are created provisionally and validated through a 10% improvement rule, ensuring that only empirically effective optimizations are retained. Experiments conducted on the TPC-H benchmark over PostgreSQL demonstrate that Athena outperforms GPT-4-based approaches in adherence to rewriting rules and achieves drastic reductions in complex query latency (e.g., from 281s to 3.9s), validating the efficacy of the proposed hybrid architecture.
URI:	http://repositorio.ufc.br/handle/riufc/84772
ORCID do(s) Autor(es):	https://www.orcid.org/0009-0005-6019-6847
Currículo Lattes do(s) Autor(es):	http://lattes.cnpq.br/5109110159995913
Currículo Lattes do Orientador:	http://lattes.cnpq.br/3895469714548887
ORCID do Coorientador:	https://orcid.org/0000-0001-9093-0428
Currículo Lattes do Coorientador:	http://lattes.cnpq.br/5168415467086883
Tipo de Acesso:	Acesso Aberto
Aparece nas coleções:	DCOMP - Dissertações defendidas na UFC

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
2026_dis_lmalpetrola.pdf		4,52 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas