Uma arquitetura de código aberto para a aplicação do Strangler Pattern com Change Data Capture para setores com alto volume de dados

Coelho, Luan Carvalho de Araújo

Use este identificador para citar ou linkar para este item: http://repositorio.ufc.br/handle/riufc/78300

Tipo:	TCC
Título:	Uma arquitetura de código aberto para a aplicação do Strangler Pattern com Change Data Capture para setores com alto volume de dados
Autor(es):	Coelho, Luan Carvalho de Araújo
Orientador:	Monteiro Filho, José Maria da Silva
Palavras-chave em português:	Strangler Pattern;Arquitetura de Microserviços;Alluxio;Apache Spark;Debezium;Apache Kafka;Change Data Capture;Alto Volume de Dados
Palavras-chave em inglês:	Strangler Pattern;Microservices Architecture;Alluxio;Apache Spark;Debezium;Apache Kafka;Change Data Capture;High Volume of Data
CNPq:	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Data do documento:	2023
Citação:	COELHO, Luan Carvalho de Araújo. Uma Arquitetura de Código Aberto para a Aplicação do Strangler Pattern com Change Data Capture para Setores com Alto Volume de Dados. 2023. 79 f. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) - Centro de Ciências, Universidade Federal do Ceará, Fortaleza, 2023.
Resumo:	Este artigo propõe uma arquitetura de código aberto para a implementação do Strangler Pattern em contextos que gerenciam grandes volumes de dados, usando tecnologias como Apache Spark, Debezium e Apache Kafka. O Strangler Pattern é uma estratégia de modernização de sistemas legados que facilita a transição gradual para novas funcionalidades e serviços, reduzindo a interrupção de serviços essenciais. É especialmente útil em cenários com grandes volumes de dados, onde a continuidade e a evolução dos serviços necessitam ser equilibradas cuidadosamente. Nesta arquitetura, o Apache Spark e o Debezium são empregados para implementar o Change Data Capture (CDC), uma técnica que identifica e captura alterações em um banco de dados, incluindo operações de inserção (INSERT), atualização (UPDATE) e exclusão (DELETE). Isso permite o processamento e transferência apenas dos dados modificados para o Data Warehouse, Data Lake ou outro destino, otimizando o tempo de processamento e o uso de recursos. A arquitetura também utiliza o Apache Kafka para gerenciar fluxos de dados em tempo real, recurso essencial para a inteligência de negócios em ambientes de alto volume de dados. Outras ferramentas como Kafka Connect e Alluxio desempenham papéis centrais na arquitetura e serão discutidos posteriormente. Resultados iniciais sugerem que a arquitetura proposta pode diminuir substancialmente os custos computacionais, aprimorar a eficiência do processamento de dados e minimizar a interrupção dos serviços existentes. O artigo apresenta detalhadamente a implementação da arquitetura, abordando os desafios, as soluções e um estudo de caso no mercado de supply chain em que a arquitetura foi primeiramente aplicada.
Abstract:	This paper proposes an open-source architecture for implementing the Strangler Pattern in contexts managing large volumes of data, using technologies such as Apache Spark, Debezium, and Apache Kafka. The Strangler Pattern is a legacy system modernization strategy that facilitates the gradual transition to new functionalities and services, minimizing the disruption of essential services. It is particularly beneficial in scenarios dealing with large data volumes, where continuity and evolution of services need to be carefully balanced. In this architecture, Apache Spark and Debezium are employed to implement the Changed Data Capture (CDC), a technique that identifies and captures changes in a database, including INSERT, UPDATE, and DELETE operations. This allows for processing and transfer of only modified data to the Data Warehouse, Data Lake, or other destinations, optimizing processing time and resource use. The architecture also utilizes Apache Kafka to manage real-time data flows, a critical feature for business intelligence in high data volume environments. Other tools such as Kafka Connect and Alluxio play central roles in the architecture and will be discussed later. Initial results suggest that the proposed architecture can significantly decrease computational costs, improve data processing efficiency, and minimize the disruption of existing services. The paper thoroughly presents the architecture implementation, addressing challenges, solutions, and a case study in the supply chain market where the architecture was initially applied.
URI:	http://repositorio.ufc.br/handle/riufc/78300
Currículo Lattes do(s) Autor(es):	http://lattes.cnpq.br/9352609317415601
Currículo Lattes do Orientador:	http://lattes.cnpq.br/9790693300026949
Tipo de Acesso:	Acesso Aberto
Aparece nas coleções:	CIÊNCIA DA COMPUTAÇÃO - Monografias

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
2023_tcc_lcacoelho.pdf		4,41 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas