Convnets na caracterização, recuperação e ranqueamento de células

Araújo, Flávio Henrique Duarte de

Use este identificador para citar ou linkar para este item: http://repositorio.ufc.br/handle/riufc/34765

Tipo:	Tese
Título:	Convnets na caracterização, recuperação e ranqueamento de células
Autor(es):	Araújo, Flávio Henrique Duarte de
Orientador:	Medeiros, Fátima Nelsizeuma Sombra de
Coorientador:	Ushizima, Daniela Mayumi
Palavras-chave:	Teleinformática;Imagens - Interpretações;Processamento de imagens;Redes neurais;Citologia;Cervical cells;Feature extraction;Content based image retrieval;Convolutional neural networks
Data do documento:	6-Jul-2018
Citação:	ARAÚJO, Flávio Henrique Duarte de. Convnets na caracterização, recuperação e ranqueamento de células. 2018. 107 f. Tese (Doutorado em Engenharia de Teleinformática)–Centro de Tecnologia, Universidade Federal do Ceará, Fortaleza, 2018.
Resumo:	O objetivo deste trabalho científico é investigar e desenvolver métodos computacionais para auxílio ao citologista na análise de lâminas do exame do Papanicolau. Inicialmente foram desenvolvidos algoritmos para a identificação de imagens de células cervicais anormais e o ranqueamento das mesmas de acordo com o grau de anormalidade. Para o desenvolvimento e avaliação desses algoritmos, foi necessário criar uma base com imagens reais do exame convencional do Papanicolau. Utilizando essa base, foi possível treinar uma Rede Neural Convolucional (CNN ou Convnets) para a identificação de regiões com anormalidades. Em seguida, uma etapa de pós-processamento baseada em morfologia matemática foi utilizada para a eliminação de regiões de falsos positivos. Após essa etapa, ordenamos as imagens da lâmina em ordem decrescente da área média das regiões com anormalidade detectadas. Com isso, as imagens, que possivelmente contêm aglomerados de células anormais, são analisadas primeiro pelo citologista. O método proposto obteve valor de medida MAP igual a 0,936 e tempo de processamento de cerca de 4,75 segundos por imagem, ambos superiores aos métodos da literatura analisados. Como parte essencial das investigações, criamos um sistema de recuperação de imagens baseada em conteúdo (CBIR) para possibilitar que os citologistas comparem exames sem laudo com resultados de exames laudados e/ou rotulados semelhantes, ou seja, exames analisados e catalogados anteriormente. Na construção desse sistema utilizamos CNNs para a extração de características, análise de componentes principais para a redução da dimensionalidade das assinaturas e locality sensitive hashing para a busca de imagens similares. Foi criado um aplicativo auto-contido com interface gráfica intuitiva que denominamos de pyCBIR. Como observamos que ele funciona apropriadamente para outras imagens com características distintas das células cervicais, realizamos testes e avaliação de acurácia e tempo de processamento para outras bases de imagens provenientes de microtomógrafo, difratores, dentre outras. De acordo com essa avaliação, recomendamos o sistema de busca desenvolvido como potencialmente aplicável a grande volume de imagens, por exemplo, em imagens de exames coletadas pelo SUS, pois o pyCBIR funciona para bases com milhões de amostras. Além disso, esse aplicativo também pode ser utilizado em bases com apenas centenas de amostras e mesmo não rotuladas, uma vez que os métodos subjacentes permitem transferência de aprendizado (transfer learning).
Abstract:	The goal of this scientific work is to investigate and develop computational methods to assist the cytopathologists in the analysis of Pap smear slides. First, we developed algorithms to identify abnormal cervical cells and rank images according to the probability of that image field to contain abnormalities. To support the development and evaluation of these algorithms, we created a database with real cell images of the conventional Pap test. By using this database, we trained a Convolutional Neural Network (CNN or Convnets) to identify abnormal cell regions. Then, a post-processing step based on the mathematical morphology removed the false positives. After this step, we calculated the average area of the segmented regions of each image and performed a ranking list of images in the decreasing order of the average area. The images with the highest values were tagged with a high probability to have abnormal cells. Experiments confirmed that the proposed method was more accurate (MAP=0.936) and faster (with about 4.75 seconds per image) than other algorithms in the literature. As an essential part of this research, we developed a system of Content-Based Image Retrieval (CBIR) that allows the cytopathologists to compare new exams with other similar exams. In this system, we used CNNs for feature extraction, principal component analysis to reduce the signature dimensionality and locality sensitive hashing to search for similar images. We also created an application with an intuitive graphical user interface named pyCBIR. As we observed that this application worked appropriately to other images with different characteristics of the cervical cells, we performed tests and evaluation of the accuracy and processing time by using databases with images from microscopy, microtomography, atomic diffraction patterns, and materials photographs. According to this evaluation, we recommend the pyCBIR as potentially applicable to big volume of data, such as images from exams of the Brazilian health system, because it works with millions of samples. Also, this application can be used in databases with hundreds and thousands of images and even for unlabeled databases, since it allows transfer learning.
URI:	http://www.repositorio.ufc.br/handle/riufc/34765
Aparece nas coleções:	DETE - Teses defendidas na UFC

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
2018_tese_fhdaraujo.pdf		66,07 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas