Please use this identifier to cite or link to this item:
http://repositorio.ufc.br/handle/riufc/74404
Type: | Dissertação |
Title: | Método de identificação dos padrões de uso e locais de embarque a partir do Big Data de transporte público: uma abordagem baseada em Machine Learning |
Authors: | Mesquita, Kaio Gefferson de Almeida |
Advisor: | Oliveira Neto, Francisco Moraes de |
Keywords in Brazilian Portuguese : | Bilhetagem eletrônica;Big Data;Padrões espaçotemporais;Aprendizado de Máquina;Validador |
Knowledge Areas - CNPq: | ENGENHARIA DE TRANSPORTES |
Issue Date: | 29-Jun-2023 |
Citation: | MESQUITA, K.G.de A. Método de identificação dos padrões de uso e locais de embarque a partir do big data de transporte público: uma abordagem baseada em machine learning. 2023. 147f. Dissertação ( Mestrado em Engenharia de Transporte ) - Centro de Tecnologia, Universidade Federal do Ceará, Fortaleza, 2023. |
Abstract in Brazilian Portuguese: | Nos últimos anos dados automáticos de tarifação (bilhetagem eletrônica) e de localização automática de veículos têm sido explorados para apoiar o planejamento e análise do sistema de transporte público. Contudo, existem vários desafios na utilização destes dados massivos, como a identificação dos locais de embarque e desembarque em sistemas abertos em redes multimodais e do tipo tronco-alimentadas, através do padrão de uso do sistema. O objetivo deste trabalho é desenvolver um método de identificação dos locais de embarque das viagens utilizando aprendizado de máquina a partir do Big Data do Sistema Integrado de Transporte Público de Fortaleza (SIT-FOR), para padrões habituais de uso do sistema. Como objetivos específicos, tem-se: (i) consolidar uma estrutura de gerenciamento do Big Data do SIT-FOR; (ii) identificar a partir de métodos de mineração de dados os padrões habituais de uso do sistema; e (iii) analisar a partir de modelagem supervisionada como os padrões habituais podem auxiliar na identificação dos locais de embarque. Acredita-se que os padrões recorrentes, espaciais ou temporais de uso do sistema, permitam identificar os atributos das viagens nos dados. Assim, os dados do Big Data foram tratados e integrados numa única base de dados relacional. Os padrões de uso foram identificados a partir de uma técnica de agrupamento (K-means), permitindo avaliar como diferentes atributos influenciam na formação de cada grupo. A partir dos padrões identificados, diferentes modelos supervisionados (Naive Bayes, Random Forest, Rede Neural) foram aplicados para prever a probabilidade de um usuário validar ao embarcar na primeira viagem do dia. Como resultados, foi possível identificar 4 padrões habituais de uso caracterizados por aspectos temporais e espaciais. Por fim, dentre os modelos supervisionados segregados por grupos, obteve-se um melhor desempenho (acurácias entre 0,58 e 0,67) com o Random Forest. Os resultados da modelagem indicaram principalmente que a segmentação dos dados em padrões habituais melhorou o desempenho dos modelos, corroborando a hipótese de que a compreensão dos diferentes padrões de uso pode apoiar a identificação de atributos das viagens nos dados de bilhetagem. |
Abstract: | In recent years automatic fare pricing (electronic ticketing) and automatic vehicle location data have been exploited to support public transportation system planning and analysis. However, there are several challenges in using this massive data, such as the identification of boarding and alighting locations in open systems in multimodal and trunk-fed networks through the system usage pattern. The objective of this work is to develop a method to identify the boarding locations of trips using machine learning from the Big Data of the Integrated Public Transportation System of Fortaleza (SIT-FOR), for habitual patterns of system use. As specific objectives, we have: (i) to consolidate a management structure for the SIT-FOR Big Data; (ii) to identify through data mining methods the usual patterns of system use; and (iii) to analyze through supervised modeling how the usual patterns can help in the identification of boarding locations. It is believed that recurring patterns, spatial or temporal patterns of system usage, allow the identification of travel attributes in the data. Thus, the Big Data data was processed and integrated into a single relational database. The usage patterns were identified from a clustering technique (K-means), allowing to assess how different attributes influence the formation of each group. From the identified patterns, different supervised models (Naive Bayes, Random Forest, Neural Network) were applied to predict the probability of a user validating when boarding the first trip of the day. As results, it was possible to identify 4 habitual usage patterns characterized by temporal and spatial aspects. Finally, among the supervised models segregated by groups, a better performance (accuracies between 0.58 and 0.67) was obtained with Random Forest. The modeling results mainly indicated that segmenting the data into habitual patterns improved the performance of the models, supporting the hypothesis that understanding different usage patterns can support the identification of travel attributes in ticketing data. |
Description in Brazilian Portuguese: | Mesquita, K. G. A. Método de identificação dos padrões de uso e locais de embarque a partir do Big Data de transporte público: uma abordagem baseada em Machine Learning. 2023. 147 f. Dissertação (Mestrado em Engenharia de Transportes) - Centro de Tecnologia, Universidade Federal do Ceará, Fortaleza, 2023. |
URI: | http://repositorio.ufc.br/handle/riufc/74404 |
Author's ORCID: | https://orcid.org/0000-0001-8314-2474 |
Author's Lattes: | http://lattes.cnpq.br/4288305631665524 |
Advisor's ORCID: | https://orcid.org/0000-0002-7756-4619 |
Advisor's Lattes: | http://lattes.cnpq.br/7671802407202251 |
Access Rights: | Acesso Aberto |
Appears in Collections: | DET - Dissertações defendidas na UFC |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
2023_dis_kgamesquita.pdf | 4,16 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.