Deep learning approach for trajectory user-linking in multidimensional and imbalanced datasets

Freitas, Nicksson Ckayo Arrais de

Please use this identifier to cite or link to this item: http://repositorio.ufc.br/handle/riufc/79074

Type:	Tese
Title:	Deep learning approach for trajectory user-linking in multidimensional and imbalanced datasets
Authors:	Freitas, Nicksson Ckayo Arrais de
Advisor:	Macêdo, José Antônio Fernandes de
Co-advisor:	Queiroz Neto, José Florêncio de
Keywords in Brazilian Portuguese :	Vinculação de usuários a trajetórias;Classificação de trajetórias;Aprendizado profundo;Aprendizado de máquina;Trajetória esparsa;Conjunto de dados desbalanceado;Dados geoespeciais
Keywords in English :	Trajectory user-linking;Trajectory classification;Deep learning;Machine learning;Sparse trajectory;Imbalanced dataset
Knowledge Areas - CNPq:	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Issue Date:	2024
Citation:	FREITAS, Nicksson Ckayo Arrais de. Deep learning approach for trajectory user-linking in multidimensional and imbalanced datasets. 2024. 87 f. Tese (Doutorado em Ciência da Computação) - Universidade Federal do Ceará, Fortaleza, 2024.
Abstract in Brazilian Portuguese:	Neste trabalho, exploramos o problema de classificação de trajetórias, com foco no desafio da Vinculação de Usuários a Subtrajetórias (Trajectory User-Linking - TUL) no contexto de Redes Sociais Baseadas em Localização (Location-Based Social Networking - LBSN). Nosso objetivo é associar subtrajetórias anônimas a usuários específicos em plataformas como o Foursquare, uma tarefa essencial para aprimorar a personalização de serviços, otimizar o planejamento urbano e de negócios e implementar estratégias mais eficazes em saúde pública e segurança. O problema de TUL apresenta diversos desafios: as bases de dados de LBSN geralmente contêm volumes massivos de informações; a representação de dimensões espaciais e temporais em modelos de aprendizado de máquina é complexa; os pontos de trajetória espaço-temporais são esparsos; as trajetórias de LBSN possuem múltiplas dimensões, incorporando características adicionais associadas aos pontos; o número de classes frequentemente excede o número de padrões de movimento, com mais de 100 classes; além disso, os conjuntos de dados podem apresentar distribuições desbalanceadas. Para abordar esses desafios, apresentamos o DeepeST (Deep Learning for Sub-Trajectory Classification), um modelo de aprendizado profundo que utiliza vetores de embeddings inspirados em técnicas de processamento de linguagem natural para lidar com grandes volumes de dados e a esparsidade das subtrajetórias. Até onde sabemos, o DeepeST é o primeiro modelo projetado especificamente para enfrentar os desafios impostos por conjuntos de dados desbalanceados no problema de TUL. Avaliamos o desempenho do DeepeST em três estudos de caso, comparando-o com algoritmos de aprendizado de máquina, como Random Forest e XGBoost, e abordagens de aprendizado profundo do estado da arte, incluindo MARC, BITULER e TULVAE. Os experimentos foram realizados com conjuntos de dados de GPS e LBSN, aplicados a tarefas de vinculação de trajetórias a usuários e classificação de atividades criminais. O DeepeST apresentou resultados significativamente superiores em acurácia balanceada, precisão, revocação (recall) e F1-score em todos os cenários analisados.
Abstract:	In this work, we investigate the trajectory classification problem and focus on the Trajectory User-Linking (TUL) challenge within Location-Based Social Networking (LBSN) to associate anonymous subtrajectories with specific users on platforms such as Foursquare. This association is crucial for enhancing service personalization and targeting, optimizing urban and business planning, and facilitating effective public health and safety strategies. The TUL problem presents multiple challenges: LBSN databases often contain large volumes of data; there is complexity in representing spatial and temporal dimensions in machine learning models; spatiotemporal trajectory points are sparse; LBSN trajectories are multidimensional, that is, there are other features available that are associated with trajectory points; the number of classes often exceeds the number of motion patterns (e.g., more than 100); and the datasets may have imbalanced distributions. To address these challenges, we introduce a new deep learning model called DeepeST (Deep Learning for Sub-Trajectory classification), which employs embedding vectors inspired by natural language processing techniques to manage large data volumes and tackle sparsity from subtrajectories. To our knowledge, DeepeST is the first model designed to address the challenges posed by imbalanced datasets in the TUL problem. We evaluated DeepeST’s performance through three case studies, comparing it against machine learning algorithms such as Random Forest and XGBoost and state-of-the-art deep learning approaches including MARC, BITULER, and TULVAE, using GPS and LBSN datasets for trajectory-user linking and criminal activities. DeepeST demonstrated significantly higher balanced accuracy, precision, recall, and F1-score values in all experiments.
URI:	http://repositorio.ufc.br/handle/riufc/79074
Author's Lattes:	http://lattes.cnpq.br/3965021702433315
Advisor's Lattes:	http://lattes.cnpq.br/5801731850423324
Co-advisor's Lattes:	http://lattes.cnpq.br/8983074896764353
Access Rights:	Acesso Aberto
Appears in Collections:	DCOMP - Teses defendidas na UFC

Files in This Item:

File	Description	Size	Format
2024_tese_ncafreitas.pdf		3,21 MB	Adobe PDF	View/Open

Show full item record