Use este identificador para citar ou linkar para este item: http://repositorio.ufc.br/handle/riufc/84772
Tipo: Dissertação
Título: Athena: a wise database fine tuning mechanism
Título em inglês: Athena: a wise database fine tuning mechanism
Autor(es): Petrola, Laura Maria Alencar Leal
Orientador: Brayner, Angelo Roncalli Alencar
Coorientador: Silva, José Wellington Franco da
Palavras-chave em português: Text-to-SQL;Otimização de banco de dados;LLMs;Agentes autônomos;Indexação adaptativa
Palavras-chave em inglês: Text-to-SQL;Database optimization;LLMs;Autonomous agents;Adaptive indexing
CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Data do documento: 2026
Citação: PETROLA, Laura Maria Alencar Leal. Athena: a wise database fine tuning mechanism. 2026. 99 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal do Ceará, Fortaleza, 2026.
Resumo: A tradução de linguagem natural para consultas SQL (Text-to-SQL) avançou significativamente com o surgimento de Grandes Modelos de Linguagem (LLMs). No entanto, abordagens convencionais frequentemente falham em dois aspectos críticos: a suscetibilidade a alucinações de esquema (Schema Linking) e a geração de consultas ineficientes que ignoram o desempenho do banco de dados. Este trabalho apresenta o Athena, um agente SQL auto-adaptativo projetado para atuar não apenas como um tradutor, mas como um Administrador de Banco de Dados (DBA) autônomo. A arquitetura proposta implementa um pipeline de refinamento sequencial composto por três módulos: Aterramento, Processamento Cognitivo e Execução Física. Para mitigar alucinações, emprega-se uma estratégia de Geração Aumentada por Recuperação (RAG) que injeta exemplos few-shot baseados em similaridade semântica. O núcleo cognitivo, impulsionado pelo modelo DeepSeek Coder, opera em duplo estágio: primeiro traduzindo a intenção do usuário e, subsequentemente, refinando o código através de uma base de conhecimento heurística fundamentada em Álgebra Relacional e literatura acadêmica (Are-SQL). Finalmente, o sistema introduz um mecanismo de "Test-Drive" para otimização física, onde índices candidatos são criados provisoriamente e validados através de uma regra de melhoria de 10%, garantindo que apenas otimizações empiricamente eficazes sejam mantidas. Experimentos realizados no benchmark TPC-H sobre PostgreSQL demonstram que o Athena supera abordagens baseadas em GPT-4 na adesão a regras de reescrita e alcança reduções drásticas na latência de consultas complexas (de 281s para 3,9s), validando a eficácia da arquitetura híbrida proposta.
Abstract: The translation of natural language into SQL queries (Text-to-SQL) has advanced significantly with the advent of Large Language Models (LLMs). However, conventional approaches often fail in two critical aspects: susceptibility to schema hallucinations (Schema Linking) and the generation of inefficient queries that disregard database performance. This work presents Athena, a self-adaptive SQL agent designed to act not merely as a translator, but as an autonomous Database Administrator (DBA). The proposed architecture implements a sequential refinement pipeline composed of three modules: Grounding, Cognitive Processing, and Physical Execution. To mitigate hallucinations, a Retrieval-Augmented Generation (RAG) strategy is employed, injecting semantic few-shot examples into the context. The cognitive core, driven by the DeepSeek Coder model, operates in a dual-stage process: first translating the user’s intent and subsequently refining the code via a heuristic knowledge base grounded in Relational Algebra and academic literature (Are-SQL). Finally, the system introduces a "Test-Drive" mechanism for physical optimization, where candidate indexes are created provisionally and validated through a 10% improvement rule, ensuring that only empirically effective optimizations are retained. Experiments conducted on the TPC-H benchmark over PostgreSQL demonstrate that Athena outperforms GPT-4-based approaches in adherence to rewriting rules and achieves drastic reductions in complex query latency (e.g., from 281s to 3.9s), validating the efficacy of the proposed hybrid architecture.
URI: http://repositorio.ufc.br/handle/riufc/84772
ORCID do(s) Autor(es): https://www.orcid.org/0009-0005-6019-6847
Currículo Lattes do(s) Autor(es): http://lattes.cnpq.br/5109110159995913
Currículo Lattes do Orientador: http://lattes.cnpq.br/3895469714548887
ORCID do Coorientador: https://orcid.org/0000-0001-9093-0428
Currículo Lattes do Coorientador: http://lattes.cnpq.br/5168415467086883
Tipo de Acesso: Acesso Aberto
Aparece nas coleções:DCOMP - Dissertações defendidas na UFC

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
2026_dis_lmalpetrola.pdf4,52 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.