Uma arquitetura de código aberto para a aplicação do Strangler Pattern com Change Data Capture para setores com alto volume de dados

Coelho, Luan Carvalho de Araújo

Por favor, use este identificador para citar o enlazar este ítem: http://repositorio.ufc.br/handle/riufc/78300

Tipo:	TCC
Título :	Uma arquitetura de código aberto para a aplicação do Strangler Pattern com Change Data Capture para setores com alto volume de dados
Autor :	Coelho, Luan Carvalho de Araújo
Tutor:	Monteiro Filho, José Maria da Silva
Palabras clave en portugués brasileño:	Strangler Pattern;Arquitetura de Microserviços;Alluxio;Apache Spark;Debezium;Apache Kafka;Change Data Capture;Alto Volume de Dados
Palabras clave en inglés:	Strangler Pattern;Microservices Architecture;Alluxio;Apache Spark;Debezium;Apache Kafka;Change Data Capture;High Volume of Data
Áreas de Conocimiento - CNPq:	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Fecha de publicación :	2023
Citación :	COELHO, Luan Carvalho de Araújo. Uma Arquitetura de Código Aberto para a Aplicação do Strangler Pattern com Change Data Capture para Setores com Alto Volume de Dados. 2023. 79 f. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) - Centro de Ciências, Universidade Federal do Ceará, Fortaleza, 2023.
Resumen en portugués brasileño:	Este artigo propõe uma arquitetura de código aberto para a implementação do Strangler Pattern em contextos que gerenciam grandes volumes de dados, usando tecnologias como Apache Spark, Debezium e Apache Kafka. O Strangler Pattern é uma estratégia de modernização de sistemas legados que facilita a transição gradual para novas funcionalidades e serviços, reduzindo a interrupção de serviços essenciais. É especialmente útil em cenários com grandes volumes de dados, onde a continuidade e a evolução dos serviços necessitam ser equilibradas cuidadosamente. Nesta arquitetura, o Apache Spark e o Debezium são empregados para implementar o Change Data Capture (CDC), uma técnica que identifica e captura alterações em um banco de dados, incluindo operações de inserção (INSERT), atualização (UPDATE) e exclusão (DELETE). Isso permite o processamento e transferência apenas dos dados modificados para o Data Warehouse, Data Lake ou outro destino, otimizando o tempo de processamento e o uso de recursos. A arquitetura também utiliza o Apache Kafka para gerenciar fluxos de dados em tempo real, recurso essencial para a inteligência de negócios em ambientes de alto volume de dados. Outras ferramentas como Kafka Connect e Alluxio desempenham papéis centrais na arquitetura e serão discutidos posteriormente. Resultados iniciais sugerem que a arquitetura proposta pode diminuir substancialmente os custos computacionais, aprimorar a eficiência do processamento de dados e minimizar a interrupção dos serviços existentes. O artigo apresenta detalhadamente a implementação da arquitetura, abordando os desafios, as soluções e um estudo de caso no mercado de supply chain em que a arquitetura foi primeiramente aplicada.
Abstract:	This paper proposes an open-source architecture for implementing the Strangler Pattern in contexts managing large volumes of data, using technologies such as Apache Spark, Debezium, and Apache Kafka. The Strangler Pattern is a legacy system modernization strategy that facilitates the gradual transition to new functionalities and services, minimizing the disruption of essential services. It is particularly beneficial in scenarios dealing with large data volumes, where continuity and evolution of services need to be carefully balanced. In this architecture, Apache Spark and Debezium are employed to implement the Changed Data Capture (CDC), a technique that identifies and captures changes in a database, including INSERT, UPDATE, and DELETE operations. This allows for processing and transfer of only modified data to the Data Warehouse, Data Lake, or other destinations, optimizing processing time and resource use. The architecture also utilizes Apache Kafka to manage real-time data flows, a critical feature for business intelligence in high data volume environments. Other tools such as Kafka Connect and Alluxio play central roles in the architecture and will be discussed later. Initial results suggest that the proposed architecture can significantly decrease computational costs, improve data processing efficiency, and minimize the disruption of existing services. The paper thoroughly presents the architecture implementation, addressing challenges, solutions, and a case study in the supply chain market where the architecture was initially applied.
URI :	http://repositorio.ufc.br/handle/riufc/78300
Lattes del autor:	http://lattes.cnpq.br/9352609317415601
Lattes del tutor:	http://lattes.cnpq.br/9790693300026949
Derechos de acceso:	Acesso Aberto
Aparece en las colecciones:	CIÊNCIA DA COMPUTAÇÃO - Monografias

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
2023_tcc_lcacoelho.pdf		4,41 MB	Adobe PDF	Visualizar/Abrir

Mostrar el registro Dublin Core completo del ítem