Athena: a wise database fine tuning mechanism

Petrola, Laura Maria Alencar Leal

Por favor, use este identificador para citar o enlazar este ítem: http://repositorio.ufc.br/handle/riufc/84772

Tipo:	Dissertação
Título :	Athena: a wise database fine tuning mechanism
Título en inglés:	Athena: a wise database fine tuning mechanism
Autor :	Petrola, Laura Maria Alencar Leal
Tutor:	Brayner, Angelo Roncalli Alencar
Co-asesor:	Silva, José Wellington Franco da
Palabras clave en portugués brasileño:	Text-to-SQL;Otimização de banco de dados;LLMs;Agentes autônomos;Indexação adaptativa
Palabras clave en inglés:	Text-to-SQL;Database optimization;LLMs;Autonomous agents;Adaptive indexing
Áreas de Conocimiento - CNPq:	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Fecha de publicación :	2026
Citación :	PETROLA, Laura Maria Alencar Leal. Athena: a wise database fine tuning mechanism. 2026. 99 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal do Ceará, Fortaleza, 2026.
Resumen en portugués brasileño:	A tradução de linguagem natural para consultas SQL (Text-to-SQL) avançou significativamente com o surgimento de Grandes Modelos de Linguagem (LLMs). No entanto, abordagens convencionais frequentemente falham em dois aspectos críticos: a suscetibilidade a alucinações de esquema (Schema Linking) e a geração de consultas ineficientes que ignoram o desempenho do banco de dados. Este trabalho apresenta o Athena, um agente SQL auto-adaptativo projetado para atuar não apenas como um tradutor, mas como um Administrador de Banco de Dados (DBA) autônomo. A arquitetura proposta implementa um pipeline de refinamento sequencial composto por três módulos: Aterramento, Processamento Cognitivo e Execução Física. Para mitigar alucinações, emprega-se uma estratégia de Geração Aumentada por Recuperação (RAG) que injeta exemplos few-shot baseados em similaridade semântica. O núcleo cognitivo, impulsionado pelo modelo DeepSeek Coder, opera em duplo estágio: primeiro traduzindo a intenção do usuário e, subsequentemente, refinando o código através de uma base de conhecimento heurística fundamentada em Álgebra Relacional e literatura acadêmica (Are-SQL). Finalmente, o sistema introduz um mecanismo de "Test-Drive" para otimização física, onde índices candidatos são criados provisoriamente e validados através de uma regra de melhoria de 10%, garantindo que apenas otimizações empiricamente eficazes sejam mantidas. Experimentos realizados no benchmark TPC-H sobre PostgreSQL demonstram que o Athena supera abordagens baseadas em GPT-4 na adesão a regras de reescrita e alcança reduções drásticas na latência de consultas complexas (de 281s para 3,9s), validando a eficácia da arquitetura híbrida proposta.
Abstract:	The translation of natural language into SQL queries (Text-to-SQL) has advanced significantly with the advent of Large Language Models (LLMs). However, conventional approaches often fail in two critical aspects: susceptibility to schema hallucinations (Schema Linking) and the generation of inefficient queries that disregard database performance. This work presents Athena, a self-adaptive SQL agent designed to act not merely as a translator, but as an autonomous Database Administrator (DBA). The proposed architecture implements a sequential refinement pipeline composed of three modules: Grounding, Cognitive Processing, and Physical Execution. To mitigate hallucinations, a Retrieval-Augmented Generation (RAG) strategy is employed, injecting semantic few-shot examples into the context. The cognitive core, driven by the DeepSeek Coder model, operates in a dual-stage process: first translating the user’s intent and subsequently refining the code via a heuristic knowledge base grounded in Relational Algebra and academic literature (Are-SQL). Finally, the system introduces a "Test-Drive" mechanism for physical optimization, where candidate indexes are created provisionally and validated through a 10% improvement rule, ensuring that only empirically effective optimizations are retained. Experiments conducted on the TPC-H benchmark over PostgreSQL demonstrate that Athena outperforms GPT-4-based approaches in adherence to rewriting rules and achieves drastic reductions in complex query latency (e.g., from 281s to 3.9s), validating the efficacy of the proposed hybrid architecture.
URI :	http://repositorio.ufc.br/handle/riufc/84772
ORCID del autor:	https://www.orcid.org/0009-0005-6019-6847
Lattes del autor:	http://lattes.cnpq.br/5109110159995913
Lattes del tutor:	http://lattes.cnpq.br/3895469714548887
ORCID del co-asesor:	https://orcid.org/0000-0001-9093-0428
Lattes del co-asesor:	http://lattes.cnpq.br/5168415467086883
Derechos de acceso:	Acesso Aberto
Aparece en las colecciones:	DCOMP - Dissertações defendidas na UFC

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
2026_dis_lmalpetrola.pdf		4,52 MB	Adobe PDF	Visualizar/Abrir

Mostrar el registro Dublin Core completo del ítem