Please use this identifier to cite or link to this item:
http://repositorio.ufc.br/handle/riufc/79074
Type: | Tese |
Title: | Deep learning approach for trajectory user-linking in multidimensional and imbalanced datasets |
Authors: | Freitas, Nicksson Ckayo Arrais de |
Advisor: | Macêdo, José Antônio Fernandes de |
Co-advisor: | Queiroz Neto, José Florêncio de |
Keywords in Brazilian Portuguese : | Vinculação de usuários a trajetórias;Classificação de trajetórias;Aprendizado profundo;Aprendizado de máquina;Trajetória esparsa;Conjunto de dados desbalanceado;Dados geoespeciais |
Keywords in English : | Trajectory user-linking;Trajectory classification;Deep learning;Machine learning;Sparse trajectory;Imbalanced dataset |
Knowledge Areas - CNPq: | CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
Issue Date: | 2024 |
Citation: | FREITAS, Nicksson Ckayo Arrais de. Deep learning approach for trajectory user-linking in multidimensional and imbalanced datasets. 2024. 87 f. Tese (Doutorado em Ciência da Computação) - Universidade Federal do Ceará, Fortaleza, 2024. |
Abstract in Brazilian Portuguese: | Neste trabalho, exploramos o problema de classificação de trajetórias, com foco no desafio da Vinculação de Usuários a Subtrajetórias (Trajectory User-Linking - TUL) no contexto de Redes Sociais Baseadas em Localização (Location-Based Social Networking - LBSN). Nosso objetivo é associar subtrajetórias anônimas a usuários específicos em plataformas como o Foursquare, uma tarefa essencial para aprimorar a personalização de serviços, otimizar o planejamento urbano e de negócios e implementar estratégias mais eficazes em saúde pública e segurança. O problema de TUL apresenta diversos desafios: as bases de dados de LBSN geralmente contêm volumes massivos de informações; a representação de dimensões espaciais e temporais em modelos de aprendizado de máquina é complexa; os pontos de trajetória espaço-temporais são esparsos; as trajetórias de LBSN possuem múltiplas dimensões, incorporando características adicionais associadas aos pontos; o número de classes frequentemente excede o número de padrões de movimento, com mais de 100 classes; além disso, os conjuntos de dados podem apresentar distribuições desbalanceadas. Para abordar esses desafios, apresentamos o DeepeST (Deep Learning for Sub-Trajectory Classification), um modelo de aprendizado profundo que utiliza vetores de embeddings inspirados em técnicas de processamento de linguagem natural para lidar com grandes volumes de dados e a esparsidade das subtrajetórias. Até onde sabemos, o DeepeST é o primeiro modelo projetado especificamente para enfrentar os desafios impostos por conjuntos de dados desbalanceados no problema de TUL. Avaliamos o desempenho do DeepeST em três estudos de caso, comparando-o com algoritmos de aprendizado de máquina, como Random Forest e XGBoost, e abordagens de aprendizado profundo do estado da arte, incluindo MARC, BITULER e TULVAE. Os experimentos foram realizados com conjuntos de dados de GPS e LBSN, aplicados a tarefas de vinculação de trajetórias a usuários e classificação de atividades criminais. O DeepeST apresentou resultados significativamente superiores em acurácia balanceada, precisão, revocação (recall) e F1-score em todos os cenários analisados. |
Abstract: | In this work, we investigate the trajectory classification problem and focus on the Trajectory User-Linking (TUL) challenge within Location-Based Social Networking (LBSN) to associate anonymous subtrajectories with specific users on platforms such as Foursquare. This association is crucial for enhancing service personalization and targeting, optimizing urban and business planning, and facilitating effective public health and safety strategies. The TUL problem presents multiple challenges: LBSN databases often contain large volumes of data; there is complexity in representing spatial and temporal dimensions in machine learning models; spatiotemporal trajectory points are sparse; LBSN trajectories are multidimensional, that is, there are other features available that are associated with trajectory points; the number of classes often exceeds the number of motion patterns (e.g., more than 100); and the datasets may have imbalanced distributions. To address these challenges, we introduce a new deep learning model called DeepeST (Deep Learning for Sub-Trajectory classification), which employs embedding vectors inspired by natural language processing techniques to manage large data volumes and tackle sparsity from subtrajectories. To our knowledge, DeepeST is the first model designed to address the challenges posed by imbalanced datasets in the TUL problem. We evaluated DeepeST’s performance through three case studies, comparing it against machine learning algorithms such as Random Forest and XGBoost and state-of-the-art deep learning approaches including MARC, BITULER, and TULVAE, using GPS and LBSN datasets for trajectory-user linking and criminal activities. DeepeST demonstrated significantly higher balanced accuracy, precision, recall, and F1-score values in all experiments. |
URI: | http://repositorio.ufc.br/handle/riufc/79074 |
Author's Lattes: | http://lattes.cnpq.br/3965021702433315 |
Advisor's Lattes: | http://lattes.cnpq.br/5801731850423324 |
Co-advisor's Lattes: | http://lattes.cnpq.br/8983074896764353 |
Access Rights: | Acesso Aberto |
Appears in Collections: | DCOMP - Teses defendidas na UFC |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
2024_tese_ncafreitas.pdf | 3,21 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.