Please use this identifier to cite or link to this item:
http://repositorio.ufc.br/handle/riufc/40462
Type: | Dissertação |
Title: | Water demand modeling using machine learning techniques |
Authors: | Carvalho, Taís Maria Nunes |
Advisor: | Souza Filho, Francisco de Assis de |
Keywords: | Recursos hídricos;Demanda - Águas;Variáveis (Matemática) - Seleção;Água - Consumo;Water demand;Variable selection;Machine learning;Long-term prediction |
Issue Date: | 2019 |
Citation: | CARVALHO, T. M. N. Water demand modeling using machine learning techniques. 2019. 58 f. Dissertação (Mestrado em Engenharia Civil)-Centro de Tecnologia, Programa de Pós-Graduação em Engenharia Civil: Recursos Hídricos, Universidade Federal do Ceará, Fortaleza, 2019. |
Abstract in Brazilian Portuguese: | A previsão da demanda de água é fundamental para decisões relacionadas à gestão de recursos hídricos a longo prazo. No entanto, a variabilidade espacial do consumo de água é um desafio para uma previsão adequada. O principal objetivo do presente estudo é investigar como os aspectos socioeconômicos da população afetam o futuro consumo urbano de água. Para que a previsão tenha bom desempenho e precisão, um subconjunto significativo de variáveis explicativas deve ser definido. Para isso, vários métodos de seleção de variáveis do tipo filtro e envoltório, baseados Regressão de Mínimos Quadrados Parciais (PLSR, do inglês Partial Least Square Regression) foram testados, juntamente com uma classificação baseada em Florestas Aleatórias (RF, do inglês Random Forest). Os subconjuntos de dados foram em seguida utilizados como entrada para um modelo preditivo. Duas técnicas de aprendizado de máquina foram testadas: RF e Rede Neural Artificial (RNA). O desempenho do modelo foi avaliado através do coeficiente de Nash-Sutfcliffe, Raiz do erro quadrático médio (RMSE, do inglês Root Mean Square Error) e correlação de Pearson. O conjunto de dados consistiu no consumo de água e dados do Censo de 2010 associados a 182 Unidades de Desenvolvimento Humano (UDH) em Fortaleza, Ceará. Importância da variável em projeção, Procedimento de eliminação regularizada e RF forneceram os subconjuntos de variáveis que levaram ao melhor desempenho de previsão entre os sete métodos de seleção. A expectativa de vida ao nascer, a renda per capita e residentes com educação primária e secundária foram considerados variáveis importantes na maioria dos subgrupos. De acordo com a avaliação de desempenho, os modelos RNA e PLSR tiveram melhor desempenho do que a RF na previsão da demanda de água. O RMSE para o melhor modelo PLSR foi de 25.779 Litros/pessoa/dia (Lpd-1) e 24.776 Lpd-1 para RNA, enquanto para RF 31.820 Lpd-1. Variáveis socioeconômicas apresentaram grande influência no consumo de água, com destaque para renda per capita e escolaridade. Embora frequentemente usada para previsão de curto prazo, a RNA mostrou-se uma boa abordagem para a previsão da demanda de água a longo prazo. A abordagem proposta para projetar um modelo espacial de consumo de água pode ser estendida a outras regiões metropolitanas e diferentes conjuntos de dados. |
Abstract: | Water demand forecasting is fundamentalto decisions related to long-term water resources management.However, spatial variability of water consumption may turn prediction into a difficult task. The main purpose of the current study is to investigate how socioeconomic aspects of households affect future urban water consumption. Prior to designing the prediction model, a significant subset of explanatory variables had to be chosenfor an improved performance and accuracy. Therefore, several filter and wrapper variable selection methods in Partial Least Squares Regression (PLSR) were tested, along with a classificationbased on Random Forests (RF). The feature subsets were used as input for a predictivemodel. Two machine learning techniques were tested: RF and Artificial Neural Network (ANN). Model performance was evaluated through Nash-Sutfcliffe coefficient, Root Mean Square Error (RMSE) and Pearson Correlation. The dataset consisted in 2010 water consumption and Census data associated with 182 Human Development Units (HDU) in Fortaleza, Ceará. Variable importance in projection (VIP),Regularized elimination procedure (REP-PLS)and RF provided the variablesubsetsthat led to the best prediction performance among theseven selection methods.Life expectancy at birth, per capita income and residents with primary and secondary education were considered as important variables in most of the feature subsets. According to the performance assessment, ANNan PLSRprovided similar performances and better estimates than RF in predicting water demand. RMSE for the best PLSRmodel was 25.779Liters/person/day (Lpd-1) and24.776Lpd-1for ANN, while for RF 31.820Lpd-1. Socioeconomic variables presented great influence in water consumption, especially per capita income and education.Although frequently used for short-term forecasting, ANNwas proved a good approachfor long-termwater demand prediction.The proposed approach of designinga spatial water consumption model can be extended to other metropolitanregions and different datasets. |
URI: | http://www.repositorio.ufc.br/handle/riufc/40462 |
Appears in Collections: | DEHA - Dissertações defendidas na UFC |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
2019_dis_tmncarvalho.pdf | 4,19 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.