Feature selection with low correlated binary features for potential tax fraudsters classification

Matos, Raimundo Tales Benigno Rocha

Por favor, use este identificador para citar o enlazar este ítem: http://repositorio.ufc.br/handle/riufc/43348

Tipo:	Tese
Título :	Feature selection with low correlated binary features for potential tax fraudsters classification
Otros títulos :	Seleção de atributos binários de baixa correlação para classificação de potenciais fraudadores fiscais
Autor :	Matos, Raimundo Tales Benigno Rocha
Tutor:	Monteiro Filho, José Maria da Silva
Co-asesor:	Macêdo, José Antônio Fernandes de
Palabras clave :	Feature selection;Low correlated features;Tax fraud detection;Association rules;Graph centrality measure
Fecha de publicación :	2019
Citación :	MATOS, Raimundo Tales Benigno Rocha. Feature selection with low correlated binary features for potential tax fraudsters classification. 2019. 75 f. Tese (Doutorado em Ciência da Computação) - Universidade Federal do Ceará, Fortaleza, 2019.
Resumen en portugués brasileño:	Os métodos de Feature Selection fornecem uma maneira de reduzir o tempo de computação, melhorar o desempenho da classificação e um melhor entendimento dos dados em aplicações de aprendizado de máquina ou reconhecimento de padrões. Feature Selection tornou-se o foco de muita pesquisa em áreas aplicadas. Neste trabalho, usamos esta técnica para detectar possíveis fraudadores de impostos. A classificação de possíveis fraudadores a partir dos dados do contribuinte, com indicadores de fraude (features) binária, apresenta vários desafios: em primeiro lugar, estes dados costumam ter features com baixa correlação linear entre si. Além disso, as fraudes fiscais podem se originar de esquemas ilícitos intricados, o que, por sua vez, requer a descoberta de relacionamentos não lineares entre várias features. Finalmente, no conjunto de features existentes em nossos experimentos, apenas um pequeno número delas mostra alguma correlação com a classe alvo. A evasão fiscal representa um dos principais obstáculos enfrentados pelas economias dos países em desenvolvimento. Grandes quantidades de informações dos contribuintes foram coletadas por agências fiscais, abrindo assim a possibilidade de criar novas técnicas capazes de combater a evasão fiscal de forma muito mais eficaz do que as abordagens tradicionais. Neste trabalho propomos ALICIA, um novo método de seleção de features baseado em regras de associação e lógica proposicional com uma medida de centralidade para grafos cuidadosamente elaborada que tenta enfrentar os desafios acima e, ao mesmo tempo, sendo independente de técnicas específicas de classificação. Nosso método, ALICIA, quer capturar a inter-relação intrínseca entre os recursos na detecção de fraude fiscal. A metodologia proposta está estruturada em três fases: em primeiro lugar, o ALICIA gera um conjunto de regras de associação relevantes a partir de um conjunto de indicadores de fraude (features). Posteriormente, o ALICIA constrói um grafo, onde cada nó representa um subconjunto de features que resultam nas regras de associação, enquanto as arestas representam relacionamentos de associação entre subconjuntos de features. Finalmente, o ALICIA determina as features mais relevantes aplicando uma nova medida de centralidade, a Fraud Feature Topological Importance, nos vértices do grafo. Realizamos uma extensa avaliação experimental para avaliar a validade de nossa proposta em quatro diferentes conjuntos de dados do mundo real, onde comparamos nossa solução com oito outros métodos de seleção de features. Os resultados mostram que o ALICIA atinge valores de F-measure de até 76,88% e supera consistentemente seus concorrentes.
Abstract:	Feature selection methods provides us a way of reducing computation time, improving prediction performance, and a better understanding of the data in machine learning or pattern recognition applications. It has become the focus of much research in areas of application. In this work, we use feature selection to select the most relevant features in order to improve the binary classification of potential tax fraudsters. Classify possible fraudsters from taxpayer data, with binary features, presents several challenges: firstly, taxpayer data typically have features with low linear correlation between themselves. Also, tax frauds may originate from intricate illicit schemas, which in turn requires to uncover non-linear relationships between multiple fraud indicators (features). Finally, in the set of features existing in our experiments, only a small number of them show some correlation with the targeted class. Tax evasion represents one of the major obstacles faced by the economies of developing countries. Vast amounts of taxpayer information has been collected by fiscal agencies, thus opening up the possibility of devising novel techniques able to tackle fiscal evasion much more effectively than traditional approaches. In this work we propose ALICIA, a new feature selection method based on association rules and propositional logic with a carefully crafted graph centrality measure that attempts to tackle the above challenges while, at the same time, being agnostic to specific classification techniques. ALICIA wants to capture the intrinsic interrelation between the features in tax fraud detection. The proposed methodology is structured in three phases: firstly, ALICIA generates a set of relevant association rules from a set of fraud indicators (features). Subsequently ALICIA builds a graph, where each node represents a subset of features resulting in the association rules, while edges represent association relationships between subsets of features. Finally, ALICIA determines the most relevant features by applying a novel centrality measure, the Feature Topological Importance, on the vertices of the graph. We perform an extensive experimental evaluation to assess the validity of our proposal on four different real-world datasets, where we compare our solution with eight other feature selection methods. The results show that ALICIA achieves F-measure scores up to 76.88%, and consistently outperforms its competitors.
URI :	http://www.repositorio.ufc.br/handle/riufc/43348
Aparece en las colecciones:	DCOMP - Teses defendidas na UFC

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
2019_tese_rtbrmatos.pdf		2,02 MB	Adobe PDF	Visualizar/Abrir

Mostrar el registro Dublin Core completo del ítem