Water demand modeling using machine learning techniques

Carvalho, Taís Maria Nunes

Use este identificador para citar ou linkar para este item: http://repositorio.ufc.br/handle/riufc/40462

Registro completo de metadados

Campo DC	Valor	Idioma
dc.contributor.advisor	Souza Filho, Francisco de Assis de	-
dc.contributor.author	Carvalho, Taís Maria Nunes	-
dc.date.accessioned	2019-03-28T13:28:55Z	-
dc.date.available	2019-03-28T13:28:55Z	-
dc.date.issued	2019	-
dc.identifier.citation	CARVALHO, T. M. N. Water demand modeling using machine learning techniques. 2019. 58 f. Dissertação (Mestrado em Engenharia Civil)-Centro de Tecnologia, Programa de Pós-Graduação em Engenharia Civil: Recursos Hídricos, Universidade Federal do Ceará, Fortaleza, 2019.	pt_BR
dc.identifier.uri	http://www.repositorio.ufc.br/handle/riufc/40462	-
dc.description.abstract	Water demand forecasting is fundamentalto decisions related to long-term water resources management.However, spatial variability of water consumption may turn prediction into a difficult task. The main purpose of the current study is to investigate how socioeconomic aspects of households affect future urban water consumption. Prior to designing the prediction model, a significant subset of explanatory variables had to be chosenfor an improved performance and accuracy. Therefore, several filter and wrapper variable selection methods in Partial Least Squares Regression (PLSR) were tested, along with a classificationbased on Random Forests (RF). The feature subsets were used as input for a predictivemodel. Two machine learning techniques were tested: RF and Artificial Neural Network (ANN). Model performance was evaluated through Nash-Sutfcliffe coefficient, Root Mean Square Error (RMSE) and Pearson Correlation. The dataset consisted in 2010 water consumption and Census data associated with 182 Human Development Units (HDU) in Fortaleza, Ceará. Variable importance in projection (VIP),Regularized elimination procedure (REP-PLS)and RF provided the variablesubsetsthat led to the best prediction performance among theseven selection methods.Life expectancy at birth, per capita income and residents with primary and secondary education were considered as important variables in most of the feature subsets. According to the performance assessment, ANNan PLSRprovided similar performances and better estimates than RF in predicting water demand. RMSE for the best PLSRmodel was 25.779Liters/person/day (Lpd-1) and24.776Lpd-1for ANN, while for RF 31.820Lpd-1. Socioeconomic variables presented great influence in water consumption, especially per capita income and education.Although frequently used for short-term forecasting, ANNwas proved a good approachfor long-termwater demand prediction.The proposed approach of designinga spatial water consumption model can be extended to other metropolitanregions and different datasets.	pt_BR
dc.language.iso	pt_BR	pt_BR
dc.subject	Recursos hídricos	pt_BR
dc.subject	Demanda - Águas	pt_BR
dc.subject	Variáveis (Matemática) - Seleção	pt_BR
dc.subject	Água - Consumo	pt_BR
dc.subject	Water demand	pt_BR
dc.subject	Variable selection	pt_BR
dc.subject	Machine learning	pt_BR
dc.subject	Long-term prediction	pt_BR
dc.title	Water demand modeling using machine learning techniques	pt_BR
dc.type	Dissertação	pt_BR
dc.description.abstract-ptbr	A previsão da demanda de água é fundamental para decisões relacionadas à gestão de recursos hídricos a longo prazo. No entanto, a variabilidade espacial do consumo de água é um desafio para uma previsão adequada. O principal objetivo do presente estudo é investigar como os aspectos socioeconômicos da população afetam o futuro consumo urbano de água. Para que a previsão tenha bom desempenho e precisão, um subconjunto significativo de variáveis explicativas deve ser definido. Para isso, vários métodos de seleção de variáveis do tipo filtro e envoltório, baseados Regressão de Mínimos Quadrados Parciais (PLSR, do inglês Partial Least Square Regression) foram testados, juntamente com uma classificação baseada em Florestas Aleatórias (RF, do inglês Random Forest). Os subconjuntos de dados foram em seguida utilizados como entrada para um modelo preditivo. Duas técnicas de aprendizado de máquina foram testadas: RF e Rede Neural Artificial (RNA). O desempenho do modelo foi avaliado através do coeficiente de Nash-Sutfcliffe, Raiz do erro quadrático médio (RMSE, do inglês Root Mean Square Error) e correlação de Pearson. O conjunto de dados consistiu no consumo de água e dados do Censo de 2010 associados a 182 Unidades de Desenvolvimento Humano (UDH) em Fortaleza, Ceará. Importância da variável em projeção, Procedimento de eliminação regularizada e RF forneceram os subconjuntos de variáveis que levaram ao melhor desempenho de previsão entre os sete métodos de seleção. A expectativa de vida ao nascer, a renda per capita e residentes com educação primária e secundária foram considerados variáveis importantes na maioria dos subgrupos. De acordo com a avaliação de desempenho, os modelos RNA e PLSR tiveram melhor desempenho do que a RF na previsão da demanda de água. O RMSE para o melhor modelo PLSR foi de 25.779 Litros/pessoa/dia (Lpd-1) e 24.776 Lpd-1 para RNA, enquanto para RF 31.820 Lpd-1. Variáveis socioeconômicas apresentaram grande influência no consumo de água, com destaque para renda per capita e escolaridade. Embora frequentemente usada para previsão de curto prazo, a RNA mostrou-se uma boa abordagem para a previsão da demanda de água a longo prazo. A abordagem proposta para projetar um modelo espacial de consumo de água pode ser estendida a outras regiões metropolitanas e diferentes conjuntos de dados.	pt_BR
Aparece nas coleções:	DEHA - Dissertações defendidas na UFC

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
2019_dis_tmncarvalho.pdf		4,19 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Visualizar estatísticas