Uma arquitetura de código aberto para a aplicação do Strangler Pattern com Change Data Capture para setores com alto volume de dados

Coelho, Luan Carvalho de Araújo

Please use this identifier to cite or link to this item: http://repositorio.ufc.br/handle/riufc/78300

Type:	TCC
Title:	Uma arquitetura de código aberto para a aplicação do Strangler Pattern com Change Data Capture para setores com alto volume de dados
Authors:	Coelho, Luan Carvalho de Araújo
Advisor:	Monteiro Filho, José Maria da Silva
Keywords in Brazilian Portuguese :	Strangler Pattern;Arquitetura de Microserviços;Alluxio;Apache Spark;Debezium;Apache Kafka;Change Data Capture;Alto Volume de Dados
Keywords in English :	Strangler Pattern;Microservices Architecture;Alluxio;Apache Spark;Debezium;Apache Kafka;Change Data Capture;High Volume of Data
Knowledge Areas - CNPq:	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Issue Date:	2023
Citation:	COELHO, Luan Carvalho de Araújo. Uma Arquitetura de Código Aberto para a Aplicação do Strangler Pattern com Change Data Capture para Setores com Alto Volume de Dados. 2023. 79 f. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) - Centro de Ciências, Universidade Federal do Ceará, Fortaleza, 2023.
Abstract in Brazilian Portuguese:	Este artigo propõe uma arquitetura de código aberto para a implementação do Strangler Pattern em contextos que gerenciam grandes volumes de dados, usando tecnologias como Apache Spark, Debezium e Apache Kafka. O Strangler Pattern é uma estratégia de modernização de sistemas legados que facilita a transição gradual para novas funcionalidades e serviços, reduzindo a interrupção de serviços essenciais. É especialmente útil em cenários com grandes volumes de dados, onde a continuidade e a evolução dos serviços necessitam ser equilibradas cuidadosamente. Nesta arquitetura, o Apache Spark e o Debezium são empregados para implementar o Change Data Capture (CDC), uma técnica que identifica e captura alterações em um banco de dados, incluindo operações de inserção (INSERT), atualização (UPDATE) e exclusão (DELETE). Isso permite o processamento e transferência apenas dos dados modificados para o Data Warehouse, Data Lake ou outro destino, otimizando o tempo de processamento e o uso de recursos. A arquitetura também utiliza o Apache Kafka para gerenciar fluxos de dados em tempo real, recurso essencial para a inteligência de negócios em ambientes de alto volume de dados. Outras ferramentas como Kafka Connect e Alluxio desempenham papéis centrais na arquitetura e serão discutidos posteriormente. Resultados iniciais sugerem que a arquitetura proposta pode diminuir substancialmente os custos computacionais, aprimorar a eficiência do processamento de dados e minimizar a interrupção dos serviços existentes. O artigo apresenta detalhadamente a implementação da arquitetura, abordando os desafios, as soluções e um estudo de caso no mercado de supply chain em que a arquitetura foi primeiramente aplicada.
Abstract:	This paper proposes an open-source architecture for implementing the Strangler Pattern in contexts managing large volumes of data, using technologies such as Apache Spark, Debezium, and Apache Kafka. The Strangler Pattern is a legacy system modernization strategy that facilitates the gradual transition to new functionalities and services, minimizing the disruption of essential services. It is particularly beneficial in scenarios dealing with large data volumes, where continuity and evolution of services need to be carefully balanced. In this architecture, Apache Spark and Debezium are employed to implement the Changed Data Capture (CDC), a technique that identifies and captures changes in a database, including INSERT, UPDATE, and DELETE operations. This allows for processing and transfer of only modified data to the Data Warehouse, Data Lake, or other destinations, optimizing processing time and resource use. The architecture also utilizes Apache Kafka to manage real-time data flows, a critical feature for business intelligence in high data volume environments. Other tools such as Kafka Connect and Alluxio play central roles in the architecture and will be discussed later. Initial results suggest that the proposed architecture can significantly decrease computational costs, improve data processing efficiency, and minimize the disruption of existing services. The paper thoroughly presents the architecture implementation, addressing challenges, solutions, and a case study in the supply chain market where the architecture was initially applied.
URI:	http://repositorio.ufc.br/handle/riufc/78300
Author's Lattes:	http://lattes.cnpq.br/9352609317415601
Advisor's Lattes:	http://lattes.cnpq.br/9790693300026949
Access Rights:	Acesso Aberto
Appears in Collections:	CIÊNCIA DA COMPUTAÇÃO - Monografias

Files in This Item:

File	Description	Size	Format
2023_tcc_lcacoelho.pdf		4,41 MB	Adobe PDF	View/Open

Show full item record