Uma análise sobre o impacto de dados faltantes no desempenho de métodos de aprendizado de máquina

Costa, Jean Carllo Jardim

Please use this identifier to cite or link to this item: http://repositorio.ufc.br/handle/riufc/41653

Full metadata record

DC Field	Value	Language
dc.contributor.advisor	Gomes, João Paulo Pordeus	-
dc.contributor.author	Costa, Jean Carllo Jardim	-
dc.date.accessioned	2019-05-14T18:14:58Z	-
dc.date.available	2019-05-14T18:14:58Z	-
dc.date.issued	2019	-
dc.identifier.citation	COSTA, Jean Carllo Jardim. Uma análise sobre o impacto de dados faltantes no desempenho de métodos de aprendizado de máquina. 2019. 55 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal do Ceará, Fortaleza, 2018.	pt_BR
dc.identifier.uri	http://www.repositorio.ufc.br/handle/riufc/41653	-
dc.description.abstract	The occurrence of missing data is a recurrent problem and it has aroused the interest of researches over the last decades. Hence, many imputation methods have been proposed in recent years. In this dissertation, we present a study about the impact of the application of several imputation methods on the performance of machine learning algorithms, for both classification and regression. The result obtained shows that the imputation algorithms can have a relevant impact on the performance of classification and regression algorithms depending on the percentage of missing data. In addition, a model for the recommendation of data imputation algorithms is presented, which compares three classifiers (Random Forests, Gradient Boosting and Support Vector Machine) in the development of this task where both have good results.	pt_BR
dc.language.iso	pt_BR	pt_BR
dc.subject	Dados faltantes	pt_BR
dc.subject	Aprendizado de máquina	pt_BR
dc.subject	Meta-aprendizado	pt_BR
dc.title	Uma análise sobre o impacto de dados faltantes no desempenho de métodos de aprendizado de máquina	pt_BR
dc.type	Dissertação	pt_BR
dc.description.abstract-ptbr	A ocorrência de dados faltantes é um problema recorrente e tem despertado interesse de pesquisadores ao longo das últimas décadas. Devido a isto, muitos métodos para imputação de dados têm sido propostos. Nesta dissertação é apresentado um estudo do impacto da aplicação de vários métodos de imputação de dados faltantes no desempenho de métodos de aprendizado de máquina, tanto classificação como regressão. O resultado obtido mostra que os algoritmos de imputação podem ter impacto relevante no desempenho de algoritmos de classificação e regressão dependendo do percentual de dados faltantes. Adicionalmente é apresentado um modelo para recomendação de algoritmos de imputação de dados que compara três classificadores (Florestas Aleatórias, Gradiente Boosting e Máquina de Vetor de Suporte) no desenvolvimento desta tarefa onde ambos apresentam bons resultados.	pt_BR
dc.title.en	An analysis of the impact of missing data on the performance of machine learning methods	pt_BR
Appears in Collections:	DCOMP - Dissertações defendidas na UFC

Files in This Item:

File	Description	Size	Format
2018_dis_jcjcosta.pdf		1,14 MB	Adobe PDF	View/Open

Show simple item record