An exploratory analysis using t-SNE

Barreto, Darley Freire

Please use this identifier to cite or link to this item: http://repositorio.ufc.br/handle/riufc/41264

Type:	TCC
Title:	An exploratory analysis using t-SNE
Title in English:	An exploratory analysis using t-SNE
Authors:	Barreto, Darley Freire
Advisor:	Corona, Francesco
Keywords:	Redução de dimensionalidade;Aprendizado de máquina;Análise de dados
Issue Date:	2018
Citation:	BARRETO, Darley Freire. An exploratory analysis using t-SNE. 2018. 73 f. Trabalho de Conclusão de Curso (graduação) – Universidade Federal do Ceará, Centro de Ciências, Curso de Ciência da Computação, Fortaleza, 2018.
Abstract in Brazilian Portuguese:	Trabalhar com dados de alta dimensionalidade é desafiador porque quanto mais há o aumento das dimensões, mais recursos e tempo são consumidos por algoritmos de análise de dados ou de aprendizado de máquina. Quando nós estamos analisando um conjunto de dados, uma das primeiras tarefas é exibi-lo com o intuito de ver seu comportamento, se existem ou não agrupamentos de pontos, ou algum padrão visível que indique um relacionamento. Em um conjunto de dados com mais de três dimensões, se um eixo for designado para cada dimensão, não é possível ver nenhuma instância deste dataset em seu espaço original. Por isso, com o intuito de produzir visualizações, nós precisamos reduzir a dimensionalidade desse conjunto de dados. Este trabalho revisa três dos mais conhecidos métodos de redução de dimensionalidade e discute suas vantagens e desvantagens. Nós coletamos conjuntos de dados contendo indicadores socioeconômicos brasileiros tais como suprimento e tratamento de água, coleta de lixo, situação dos esgotos, material de construção das casas, produto interno bruto municipal e etc. Estes indicadores configuram as dimensões dos nossos dados, portanto, dependendo do conjunto de dados, podemos ter oito, vinte e três ou até mais indicadores. Consequentemente, nós não podemos visualizar um ponto formado por por todos estes indicadores em seu espaço completo. Assim, nós aplicamos os métodos redução de dimensionalidade para trazê-los do espaço de alta dimensionalidade para o bidimensional. Por fim, nós aplicamos métodos de redução de dimensionalidade nos conjuntos de dados coletados, e então discutimos seus resultados.
Abstract:	Working with high dimensional data is challenging because as the number of dimensions grows, more resources and time are consumed by a data analysis or machine learning algorithms. When analyzing a dataset, one of the first tasks is plotting it to see it’s behavior, whether exist or not clustered points, or any visible pattern indicating a relationship. In a dataset with more than three dimensions, if an axis is assigned for each dimension, it is not possible to see any instance of this dataset in its original space. Thus, in order to produce visualizations, we need to reduce the dimensionality of this dataset. This work reviews three of the well-known dimensionality reduction methods and discusses their advantages and disadvantages. We collected datasets containing Brazilian social and economic indicators such as water supply and treatment, garbage collection, sewers, houses materials, municipal gross domestic product, etc. These indicators configure the dimensions of our data, therefore, depending on the dataset, we may have eight, twenty-three or more indicators. Hence, we can not visualize a point that lies in a space which each of those indicators is a dimension. Thus, we apply dimensionality reduction methods to bring them from the high-dimensional space to the two-dimensional, where we can see them. Further, we apply dimensionality reduction methods to the collected datasets, and then we discuss the results.
URI:	http://www.repositorio.ufc.br/handle/riufc/41264
Appears in Collections:	CIÊNCIA DA COMPUTAÇÃO - Monografias

Files in This Item:

File	Description	Size	Format
2018_tcc_dfbarreto.pdf		89,1 MB	Adobe PDF	View/Open

Show full item record