Use este identificador para citar ou linkar para este item:
http://repositorio.ufc.br/handle/riufc/84772| Tipo: | Dissertação |
| Título: | Athena: a wise database fine tuning mechanism |
| Título em inglês: | Athena: a wise database fine tuning mechanism |
| Autor(es): | Petrola, Laura Maria Alencar Leal |
| Orientador: | Brayner, Angelo Roncalli Alencar |
| Coorientador: | Silva, José Wellington Franco da |
| Palavras-chave em português: | Text-to-SQL;Otimização de banco de dados;LLMs;Agentes autônomos;Indexação adaptativa |
| Palavras-chave em inglês: | Text-to-SQL;Database optimization;LLMs;Autonomous agents;Adaptive indexing |
| CNPq: | CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
| Data do documento: | 2026 |
| Citação: | PETROLA, Laura Maria Alencar Leal. Athena: a wise database fine tuning mechanism. 2026. 99 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal do Ceará, Fortaleza, 2026. |
| Resumo: | A tradução de linguagem natural para consultas SQL (Text-to-SQL) avançou significativamente com o surgimento de Grandes Modelos de Linguagem (LLMs). No entanto, abordagens convencionais frequentemente falham em dois aspectos críticos: a suscetibilidade a alucinações de esquema (Schema Linking) e a geração de consultas ineficientes que ignoram o desempenho do banco de dados. Este trabalho apresenta o Athena, um agente SQL auto-adaptativo projetado para atuar não apenas como um tradutor, mas como um Administrador de Banco de Dados (DBA) autônomo. A arquitetura proposta implementa um pipeline de refinamento sequencial composto por três módulos: Aterramento, Processamento Cognitivo e Execução Física. Para mitigar alucinações, emprega-se uma estratégia de Geração Aumentada por Recuperação (RAG) que injeta exemplos few-shot baseados em similaridade semântica. O núcleo cognitivo, impulsionado pelo modelo DeepSeek Coder, opera em duplo estágio: primeiro traduzindo a intenção do usuário e, subsequentemente, refinando o código através de uma base de conhecimento heurística fundamentada em Álgebra Relacional e literatura acadêmica (Are-SQL). Finalmente, o sistema introduz um mecanismo de "Test-Drive" para otimização física, onde índices candidatos são criados provisoriamente e validados através de uma regra de melhoria de 10%, garantindo que apenas otimizações empiricamente eficazes sejam mantidas. Experimentos realizados no benchmark TPC-H sobre PostgreSQL demonstram que o Athena supera abordagens baseadas em GPT-4 na adesão a regras de reescrita e alcança reduções drásticas na latência de consultas complexas (de 281s para 3,9s), validando a eficácia da arquitetura híbrida proposta. |
| Abstract: | The translation of natural language into SQL queries (Text-to-SQL) has advanced significantly with the advent of Large Language Models (LLMs). However, conventional approaches often fail in two critical aspects: susceptibility to schema hallucinations (Schema Linking) and the generation of inefficient queries that disregard database performance. This work presents Athena, a self-adaptive SQL agent designed to act not merely as a translator, but as an autonomous Database Administrator (DBA). The proposed architecture implements a sequential refinement pipeline composed of three modules: Grounding, Cognitive Processing, and Physical Execution. To mitigate hallucinations, a Retrieval-Augmented Generation (RAG) strategy is employed, injecting semantic few-shot examples into the context. The cognitive core, driven by the DeepSeek Coder model, operates in a dual-stage process: first translating the user’s intent and subsequently refining the code via a heuristic knowledge base grounded in Relational Algebra and academic literature (Are-SQL). Finally, the system introduces a "Test-Drive" mechanism for physical optimization, where candidate indexes are created provisionally and validated through a 10% improvement rule, ensuring that only empirically effective optimizations are retained. Experiments conducted on the TPC-H benchmark over PostgreSQL demonstrate that Athena outperforms GPT-4-based approaches in adherence to rewriting rules and achieves drastic reductions in complex query latency (e.g., from 281s to 3.9s), validating the efficacy of the proposed hybrid architecture. |
| URI: | http://repositorio.ufc.br/handle/riufc/84772 |
| ORCID do(s) Autor(es): | https://www.orcid.org/0009-0005-6019-6847 |
| Currículo Lattes do(s) Autor(es): | http://lattes.cnpq.br/5109110159995913 |
| Currículo Lattes do Orientador: | http://lattes.cnpq.br/3895469714548887 |
| ORCID do Coorientador: | https://orcid.org/0000-0001-9093-0428 |
| Currículo Lattes do Coorientador: | http://lattes.cnpq.br/5168415467086883 |
| Tipo de Acesso: | Acesso Aberto |
| Aparece nas coleções: | DCOMP - Dissertações defendidas na UFC |
Arquivos associados a este item:
| Arquivo | Descrição | Tamanho | Formato | |
|---|---|---|---|---|
| 2026_dis_lmalpetrola.pdf | 4,52 MB | Adobe PDF | Visualizar/Abrir |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.