Método de identificação dos padrões de uso e locais de embarque a partir do Big Data de transporte público: uma abordagem baseada em Machine Learning

Mesquita, Kaio Gefferson de Almeida

Por favor, use este identificador para citar o enlazar este ítem: http://repositorio.ufc.br/handle/riufc/74404

Tipo:	Dissertação
Título :	Método de identificação dos padrões de uso e locais de embarque a partir do Big Data de transporte público: uma abordagem baseada em Machine Learning
Autor :	Mesquita, Kaio Gefferson de Almeida
Tutor:	Oliveira Neto, Francisco Moraes de
Palabras clave en portugués brasileño:	Bilhetagem eletrônica;Big Data;Padrões espaçotemporais;Aprendizado de Máquina;Validador
Áreas de Conocimiento - CNPq:	ENGENHARIA DE TRANSPORTES
Fecha de publicación :	29-jun-2023
Citación :	MESQUITA, K.G.de A. Método de identificação dos padrões de uso e locais de embarque a partir do big data de transporte público: uma abordagem baseada em machine learning. 2023. 147f. Dissertação ( Mestrado em Engenharia de Transporte ) - Centro de Tecnologia, Universidade Federal do Ceará, Fortaleza, 2023.
Resumen en portugués brasileño:	Nos últimos anos dados automáticos de tarifação (bilhetagem eletrônica) e de localização automática de veículos têm sido explorados para apoiar o planejamento e análise do sistema de transporte público. Contudo, existem vários desafios na utilização destes dados massivos, como a identificação dos locais de embarque e desembarque em sistemas abertos em redes multimodais e do tipo tronco-alimentadas, através do padrão de uso do sistema. O objetivo deste trabalho é desenvolver um método de identificação dos locais de embarque das viagens utilizando aprendizado de máquina a partir do Big Data do Sistema Integrado de Transporte Público de Fortaleza (SIT-FOR), para padrões habituais de uso do sistema. Como objetivos específicos, tem-se: (i) consolidar uma estrutura de gerenciamento do Big Data do SIT-FOR; (ii) identificar a partir de métodos de mineração de dados os padrões habituais de uso do sistema; e (iii) analisar a partir de modelagem supervisionada como os padrões habituais podem auxiliar na identificação dos locais de embarque. Acredita-se que os padrões recorrentes, espaciais ou temporais de uso do sistema, permitam identificar os atributos das viagens nos dados. Assim, os dados do Big Data foram tratados e integrados numa única base de dados relacional. Os padrões de uso foram identificados a partir de uma técnica de agrupamento (K-means), permitindo avaliar como diferentes atributos influenciam na formação de cada grupo. A partir dos padrões identificados, diferentes modelos supervisionados (Naive Bayes, Random Forest, Rede Neural) foram aplicados para prever a probabilidade de um usuário validar ao embarcar na primeira viagem do dia. Como resultados, foi possível identificar 4 padrões habituais de uso caracterizados por aspectos temporais e espaciais. Por fim, dentre os modelos supervisionados segregados por grupos, obteve-se um melhor desempenho (acurácias entre 0,58 e 0,67) com o Random Forest. Os resultados da modelagem indicaram principalmente que a segmentação dos dados em padrões habituais melhorou o desempenho dos modelos, corroborando a hipótese de que a compreensão dos diferentes padrões de uso pode apoiar a identificação de atributos das viagens nos dados de bilhetagem.
Abstract:	In recent years automatic fare pricing (electronic ticketing) and automatic vehicle location data have been exploited to support public transportation system planning and analysis. However, there are several challenges in using this massive data, such as the identification of boarding and alighting locations in open systems in multimodal and trunk-fed networks through the system usage pattern. The objective of this work is to develop a method to identify the boarding locations of trips using machine learning from the Big Data of the Integrated Public Transportation System of Fortaleza (SIT-FOR), for habitual patterns of system use. As specific objectives, we have: (i) to consolidate a management structure for the SIT-FOR Big Data; (ii) to identify through data mining methods the usual patterns of system use; and (iii) to analyze through supervised modeling how the usual patterns can help in the identification of boarding locations. It is believed that recurring patterns, spatial or temporal patterns of system usage, allow the identification of travel attributes in the data. Thus, the Big Data data was processed and integrated into a single relational database. The usage patterns were identified from a clustering technique (K-means), allowing to assess how different attributes influence the formation of each group. From the identified patterns, different supervised models (Naive Bayes, Random Forest, Neural Network) were applied to predict the probability of a user validating when boarding the first trip of the day. As results, it was possible to identify 4 habitual usage patterns characterized by temporal and spatial aspects. Finally, among the supervised models segregated by groups, a better performance (accuracies between 0.58 and 0.67) was obtained with Random Forest. The modeling results mainly indicated that segmenting the data into habitual patterns improved the performance of the models, supporting the hypothesis that understanding different usage patterns can support the identification of travel attributes in ticketing data.
Descripción en portugués brasileño :	Mesquita, K. G. A. Método de identificação dos padrões de uso e locais de embarque a partir do Big Data de transporte público: uma abordagem baseada em Machine Learning. 2023. 147 f. Dissertação (Mestrado em Engenharia de Transportes) - Centro de Tecnologia, Universidade Federal do Ceará, Fortaleza, 2023.
URI :	http://repositorio.ufc.br/handle/riufc/74404
ORCID del autor:	https://orcid.org/0000-0001-8314-2474
Lattes del autor:	http://lattes.cnpq.br/4288305631665524
ORCID del tutor:	https://orcid.org/0000-0002-7756-4619
Lattes del tutor:	http://lattes.cnpq.br/7671802407202251
Derechos de acceso:	Acesso Aberto
Aparece en las colecciones:	DET - Dissertações defendidas na UFC

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
2023_dis_kgamesquita.pdf		4,16 MB	Adobe PDF	Visualizar/Abrir

Mostrar el registro Dublin Core completo del ítem