Avaliação de modelos de aprendizagem de máquina e técnicas de explicabilidade para descrição de microbioma de solo

Sales, Pedro Amaral Fontes de

Use este identificador para citar ou linkar para este item: http://repositorio.ufc.br/handle/riufc/78333

Tipo:	TCC
Título:	Avaliação de modelos de aprendizagem de máquina e técnicas de explicabilidade para descrição de microbioma de solo
Autor(es):	Sales, Pedro Amaral Fontes de
Orientador:	Mattos, César Lincoln Cavalcante
Palavras-chave em português:	Aprendizagem de máquina;Explicabilidade;XAI;Ecologia;Metagenômica;Microbiologia
Palavras-chave em inglês:	Machine learning;Explainability;XAI;Ecology;Metagenomic;Microbiology
CNPq:	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Data do documento:	2024
Citação:	SALES, Pedro Amaral Fontes de. Avaliação de modelos de aprendizagem de máquina e técnicas de explicabilidade para descrição de microbioma de solo. 2024. 43 f. Monografia (Graduação em Ciência da Computação) - Centro de Ciências, Universidade Federal do Ceará, Fortaleza, 2024.
Resumo:	O campo da aprendizagem de máquina vem se tornando cada vez mais popular e a necessidade de compreender melhor o funcionamento dos modelos desenvolvidos por essa área se faz cada vez mais evidente. Dentre os recursos existentes para suprir essa necessidade, está a SHAP (Shapley Additive Explanations), uma abordagem que auxilia na interpretação de modelos de aprendizagem de máquina ao calcular a importância dos atributos que compõe os dados. Um possível uso dessa ferramenta é o auxílio na compreensão não só das decisões tomadas pelos modelos, como também da relevância dos atributos, e aquilo que eles representam, no contexto do domínio dos dados. Neste trabalho, buscamos utilizar essas ferramentas para averiguar a aplicabilidade desse tipo de análise no campo da ecologia microbiana do solo, investigando se modelos de aprendizagem de máquina são capazes de classificar de maneira satisfatória dados de metagenômica e se as análises desses modelos podem auxiliar na compreensão da diversidade microbiana das amostras, oferecendo perspectivas que análises tradicionais não conseguem oferecer. Esses dados se destacam pela alta dimensionalidade e pela dificuldade de coleta de amostras, duas características que tornam um problema bastante desafiador no contexto da aprendizagem de máquina. Portanto, também foi avaliado o efeito da projeção dos dados, para redução de dimensionalidade, nos resultados obtidos. De maneira geral, não observou-se benefício na projeção dos dados. Porém, sem a projeção, os resultados obtidos foram promissores, ainda que limitados pela quantidade reduzida de dados. Além disso, as análises de explicabilidade obtidas apresentaram certa relação com análises mais tradicionais mas também foram capazes de evidenciar certos grupos que as análises tradicionais não foi. De maneira geral, o resultados foram positivos, mas ficou clara a necessidade de mais estudos com conjunto de dados maiores e com investigações mais profundas das observações proporcionadas.
Abstract:	Machine learning has become increasingly popular and the need to better understand the inner workings of the models developed in the field makes itself clearer day by day. Among the existing resources to better understand said models its SHAP (Shapley Additive Explanations), an approach to explain machine learning models by computing the importance of the features that compose the data. One of the many uses of this tool its to better our understanding not only of the decision taken by the models, but also of the importance of features, and what they represent, in the context of the data’s domain. In this paper, we aim to use this tools to assess the viability of this kind of approach in the field of soil microbial ecology, investigating if machine learning models are capable of classifying metagenomic data and if the analysis of these models is helpful to our understanding of microbial diversity and capable of providing insights that traditional approaches are not. This type of data is characterized by high dimensionality and by the high cost in acquiring new samples, making this problem particularly challenging in the context of machine learning. Therefore, it was also evaluated the effects of projecting the data, for dimensionality reduction, to the obtained results. The results made clear that the dimensionality reduction gave no observable benefit. On the other hand, without projection, the results were promising, albeit limited by the reduced sample size. The explainability analysis showed a small relation with more traditional ones, but were also capable of highlighting features otherwise ignored. Overall, the results were positive, but the need for bigger datasets remained clear. Also, the need to pair these analysis with more in depth investigations became apparent, if we are to validate this approach with more confidence.
URI:	http://repositorio.ufc.br/handle/riufc/78333
Currículo Lattes do(s) Autor(es):	https://lattes.cnpq.br/1223356314283797
Currículo Lattes do Orientador:	http://lattes.cnpq.br/2445571161029337
Tipo de Acesso:	Acesso Aberto
Aparece nas coleções:	CIÊNCIA DA COMPUTAÇÃO - Monografias

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
2024_tcc_pafsales.pdf		2,58 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas