Please use this identifier to cite or link to this item:
http://repositorio.ufc.br/handle/riufc/50777
Type: | Dissertação |
Title: | Scan and join operators for asymmetric media |
Title in English: | Scan and join operators for asymmetric media |
Authors: | Alencar, Namom Alves |
Advisor: | Monteiro Filho, José Maria |
Co-advisor: | Brayner, Ângelo Alencar |
Keywords: | Solid state memory;Database query processing;Parallel join operator;Parallel scan operator;Memória de estado sólido;Processamento de consulta de banco de dados;Operador de junção paralela;Operador de leitura paralela |
Issue Date: | 2019 |
Citation: | ALENCAR, Namom Alves. Scan and join operators for asymmetric media. 2019. 108 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal do Ceará, Fortaleza, 2019. |
Abstract in Brazilian Portuguese: | Memorias de estado sólido (Solid State Drive (SSD)), se tornaram uma realidade para armazenamento de grandes bases de dados. SSDs não possuem partes mecânicas em sua composição. Consequentemente, é dotado de características e capacidades diferentes quando comparados com Discos Rígidos (Hard Disk Drive (HDD)). A indústria da computação está melhorando, cada vez mais, o paralelismo interno dos circuitos integrados com a fabricação em larga escala de processadores com centenas e centenas de núcleos. Uma das características mais importantes dos SSDs é que eles possuem diferentes níveis de paralelismo interno para a execução de operações de leitura e escrita. Estão surgindo computadores com SSD que possuem petabytes de capacidade de armazenamento. No entanto, os sistemas de banco de dados foram projetados com base em duas premissas. Primeiro, computadores usam HDDs para armazenar seus bancos de dados. A segunda premissa é que os sistemas de banco de dados distribuídos podem ser dimensionados para mais de uma única instância de um Sistema Gerenciador de Bancos de Dados (SGBD). Entretanto, a última premissa somente considera um pequeno número de núcleos por CPU e um número limitado de instâncias. Assim, para tirar o máximo proveito dos benefícios fornecidos pela paralelização e pelas altas taxas de operações por segundo (IOPS (Input/Output Operations Per Second)) fornecidas por máquinas de muitos núcleos com dispositivos SSDs, os sistemas de banco de dados devem estar preparados para as futuras arquiteturas de processadores e de armazenamento. Baseado nisto, esta pesquisa defende que, para tirar o máximo de proveito das características dos SSDs, componentes do SGBD devem ser cientes da assimetria entre leitura/escrita. A junção é o operador de consulta que requer a maior quantidade de acessos (operações de leitura/escrita) à memória secundária. Esta dissertação apresenta um novo algorítimo de leitura e de junção, chamados respectivamente de DaC Scan e DaC Join. O objetivo principal destes algoritmos é explorar ao máximo o paralelismo interno dos dispositivos SSDs, DaCJoin, também, é capaz de reduzir a quantidade de operações de escrita durante sua execução de uma operação de junção entre R S. Ao realizarmos menos escritas em memória secundária, estendemos a vida útil do dispositivo e utilizamos menos espaço de memória principal. Os experimentos foram realizados em banco de dados com o benchmark TPCH e os operadores propostos foram analisados em duas perspectivas, ecácia e eciência. Os resultados obtidos mostraram que os algoritmos propostos são bastante ecientes. DaC Join conseguiu reduzir em cerca de 77% o número de operações de escrita w.r.t. quando comparado com os números apresentados pelo Flash join (TSIROGIANNIS et al., 2009; GRAEFE; HARIZOPOULOS, 2010) e, consequentemente, mostrou-se ser cerca de 61% mais rápido. |
Abstract: | Solid State Drive (SSD) has become an attractive alternative for storing large databases. SSDs do not present mechanical parts in their assembly. Consequently, SSD has different characteristics and capabilities than that of Hard Disk Drive (HDD). The computer industry is moving towards the construction in large scale of chips with hundreds of cores in order to increase on-chip parallelism. One of the most important features of SSDs is the fact that they implement different levels of internal parallelism for executing read/write operations. Computers with SSD that provides petabytes of storage area is emerging. Nonetheless, database systems were designed based upon two premises. The rst one is the usage of HDD for storing databases. The second premise is that distributed database systems could scale beyond what a single-node Database Management System (DBMS) can support. However, the latter premise only holds for a small number of CPU cores in a node and for a limited number of nodes. Thus, to fully exploit benets provided by the parallelism and high Input/Output Operations Per Second (IOPS) rates supported by many-core machines with SSDs, database systems should be aware of upcoming CPUarchitectures and storage technologies. Thus, this research claims that to take full prot from SSD characteristics, DBMS's components should be aware of read/write asymmetry in SSD devices. It is well-known that the join operation is the query operator which requires the highest amount of accesses (read/write operations) to the secondary memory. This dissertation presents new scan algorithm and a new join algorithm, called respectively Divide and Conquer Scan (DaC Scan) and Divide and Conquer Join (DaC Join). The key goal of these algorithms are take advantage of the SSD's internal parallelism devices, DaC Join also reduces the amount of write operations during the execution of any join operation R S. By making less writes, we intend to extend the lifetime of SSD media by requiring less main memory space. Furthermore, the proposed operators are evaluated by, effectiveness and ef ciency, measured experiments on a database with the TPCH benchmark. The achieved results have shown that the proposed algorithms are quite efcient. For instance, DaC Join can reduce up to 77% of the amount of write operations w.r.t. and the number of write operations presented by Flash join (TSIROGIANNIS et al., 2009; GRAEFE; HARIZOPOULOS, 2010), and, consequently, it can be up to 61% faster than Flash join. |
URI: | http://www.repositorio.ufc.br/handle/riufc/50777 |
Appears in Collections: | DCOMP - Dissertações defendidas na UFC |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
2019_dis_naalencar.pdf | 6,65 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.