Aprendizagem e rotulação de intenções semiautomática para modelos de classificação de texto em linguagem natural

Santos Júnior, Valmir Oliveira dos

Use este identificador para citar ou linkar para este item: http://repositorio.ufc.br/handle/riufc/78233

Tipo:	Dissertação
Título:	Aprendizagem e rotulação de intenções semiautomática para modelos de classificação de texto em linguagem natural
Autor(es):	Santos Júnior, Valmir Oliveira dos
Orientador:	Oliveira, Marcos Antônio de
Palavras-chave em português:	Chatbots;Natural language understanding;Aprendizagem não supervisionada;Agrupamento;COVID-19
Data do documento:	2024
Citação:	SANTOS JÚNIOR, Valmir Oliveira dos. Aprendizagem e rotulação de intenções semiautomática para modelos de classificação de texto em linguagem natural. 2024. 68f. Dissertação (mestrado) – Universidade Federal do Ceará, Campus de Quixadá, Programa de Pós-Graduação em Computação, Quixadá, 2024.
Resumo:	É cada vez mais comum a utilização de chatbots como interface de serviços. Um dos principais componentes de um chatbot é o modulo de Natural Language Understanding (NLU), responsável por interpretar o texto, extrair a intenção e as entidades presentes. É possível focar apenas em uma dessas tarefas do NLU, como a classificação de intenções. Para treinar um modelo de classificação de intenção NLU, geralmente é necessário usar uma quantidade considerável de dados anotados, onde cada frase do conjunto de dados recebe um rótulo indicando uma intenção. A rotulagem manual dos dados é uma tarefa árdua que consome muito tempo, dependendo do volume de dados. Assim, uma técnica de aprendizado de máquina não supervisionada, como agrupamento de dados, poderia ser aplicada para encontrar e rotular padrões. Para esta tarefa, é essencial ter uma representação vetorial de textos eficaz que retrate as informações semânticas e ajude a máquina a compreender o contexto, a intenção e outras nuances de todo o texto. Este trabalho avalia extensivamente diferentes modelos de embeddings de texto para agrupamento e rotulagem. Também são aplicadas algumas operações para melhorar a qualidade do conjunto de dados, onde são descartadas as sentenças menos representativas de cada grupo gerado. Em seguida são treinados alguns Modelos de Classificação de Intenções com duas arquiteturas baseadas em Redes Neurais, utilizando o texto de atendimento da Plataforma do Plantão Coronavírus (PPC). Também foi anotado manualmente um conjunto de dados para ser usado como dados de validação. Foi realizado um estudo sobre a rotulagem semiautomática, implementada por meio de agrupamento de dados e inspeção visual, a qual introduziu alguns erros de rotulagem nos modelos de classificação de intenções. No entanto, seria inviável anotar todo o conjunto de dados manualmente. Contudo, ainda foram construídos modelos que obtiveram mais de 98% de acurácia com dados de testes e mais de 96% com dados de validação.
Abstract:	It is increasingly common to use chatbots as service interfaces. One of the main components of a chatbot is the NLU module, responsible for interpreting the text, extracting the intent, and identifying the entities present. It is possible to focus on just one of these NLU tasks, such as intent classification. To train an NLU intent classification model usually requires a considerable amount of annotated data, where each sentence in the dataset is labeled with an intent. Depending on the volume of data, manual data labeling can be laborious and time-consuming. Thus, an unsupervised machine learning technique, such as data clustering, could be applied to find and label patterns. For this task, an effective text vector representation that captures semantic information and helps the machine understand the context, intent, and other nuances of the entire text is essential. This work extensively evaluates different text embedding models for clustering and labeling. Some operations are also applied to improve the dataset’s quality, where the least representative sentences of each generated group are discarded. Then, some Intent Classification Models are trained using two architectures based on Neural Networks, using service text from PPC. A dataset was also manually annotated to be used as validation data. A study was conducted on semiautomatic labeling, implemented through data clustering and visual inspection, which introduced some labeling errors in the intent classification models. However, it would be unfeasible to manually annotate the entire dataset. Nonetheless, models were built that achieved over 98% accuracy with test data and over 96% with validation data.
URI:	http://repositorio.ufc.br/handle/riufc/78233
Currículo Lattes do Orientador:	http://lattes.cnpq.br/7658234102718482
Tipo de Acesso:	Acesso Aberto
Aparece nas coleções:	PCOMP - QUIXADÁ - Dissertações defendidas na UFC

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
2024_dis_vosantosjunior.pdf		1,13 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas