Aprendizagem e rotulação de intenções semiautomática para modelos de classificação de texto em linguagem natural

Santos Júnior, Valmir Oliveira dos

Please use this identifier to cite or link to this item: http://repositorio.ufc.br/handle/riufc/78233

Type:	Dissertação
Title:	Aprendizagem e rotulação de intenções semiautomática para modelos de classificação de texto em linguagem natural
Authors:	Santos Júnior, Valmir Oliveira dos
Advisor:	Oliveira, Marcos Antônio de
Keywords in Brazilian Portuguese :	Chatbots;Natural language understanding;Aprendizagem não supervisionada;Agrupamento;COVID-19
Issue Date:	2024
Citation:	SANTOS JÚNIOR, Valmir Oliveira dos. Aprendizagem e rotulação de intenções semiautomática para modelos de classificação de texto em linguagem natural. 2024. 68f. Dissertação (mestrado) – Universidade Federal do Ceará, Campus de Quixadá, Programa de Pós-Graduação em Computação, Quixadá, 2024.
Abstract in Brazilian Portuguese:	É cada vez mais comum a utilização de chatbots como interface de serviços. Um dos principais componentes de um chatbot é o modulo de Natural Language Understanding (NLU), responsável por interpretar o texto, extrair a intenção e as entidades presentes. É possível focar apenas em uma dessas tarefas do NLU, como a classificação de intenções. Para treinar um modelo de classificação de intenção NLU, geralmente é necessário usar uma quantidade considerável de dados anotados, onde cada frase do conjunto de dados recebe um rótulo indicando uma intenção. A rotulagem manual dos dados é uma tarefa árdua que consome muito tempo, dependendo do volume de dados. Assim, uma técnica de aprendizado de máquina não supervisionada, como agrupamento de dados, poderia ser aplicada para encontrar e rotular padrões. Para esta tarefa, é essencial ter uma representação vetorial de textos eficaz que retrate as informações semânticas e ajude a máquina a compreender o contexto, a intenção e outras nuances de todo o texto. Este trabalho avalia extensivamente diferentes modelos de embeddings de texto para agrupamento e rotulagem. Também são aplicadas algumas operações para melhorar a qualidade do conjunto de dados, onde são descartadas as sentenças menos representativas de cada grupo gerado. Em seguida são treinados alguns Modelos de Classificação de Intenções com duas arquiteturas baseadas em Redes Neurais, utilizando o texto de atendimento da Plataforma do Plantão Coronavírus (PPC). Também foi anotado manualmente um conjunto de dados para ser usado como dados de validação. Foi realizado um estudo sobre a rotulagem semiautomática, implementada por meio de agrupamento de dados e inspeção visual, a qual introduziu alguns erros de rotulagem nos modelos de classificação de intenções. No entanto, seria inviável anotar todo o conjunto de dados manualmente. Contudo, ainda foram construídos modelos que obtiveram mais de 98% de acurácia com dados de testes e mais de 96% com dados de validação.
Abstract:	It is increasingly common to use chatbots as service interfaces. One of the main components of a chatbot is the NLU module, responsible for interpreting the text, extracting the intent, and identifying the entities present. It is possible to focus on just one of these NLU tasks, such as intent classification. To train an NLU intent classification model usually requires a considerable amount of annotated data, where each sentence in the dataset is labeled with an intent. Depending on the volume of data, manual data labeling can be laborious and time-consuming. Thus, an unsupervised machine learning technique, such as data clustering, could be applied to find and label patterns. For this task, an effective text vector representation that captures semantic information and helps the machine understand the context, intent, and other nuances of the entire text is essential. This work extensively evaluates different text embedding models for clustering and labeling. Some operations are also applied to improve the dataset’s quality, where the least representative sentences of each generated group are discarded. Then, some Intent Classification Models are trained using two architectures based on Neural Networks, using service text from PPC. A dataset was also manually annotated to be used as validation data. A study was conducted on semiautomatic labeling, implemented through data clustering and visual inspection, which introduced some labeling errors in the intent classification models. However, it would be unfeasible to manually annotate the entire dataset. Nonetheless, models were built that achieved over 98% accuracy with test data and over 96% with validation data.
URI:	http://repositorio.ufc.br/handle/riufc/78233
Advisor's Lattes:	http://lattes.cnpq.br/7658234102718482
Access Rights:	Acesso Aberto
Appears in Collections:	PCOMP - Dissertações defendidas na UFC

Files in This Item:

File	Description	Size	Format
2024_dis_vosantosjunior.pdf		1,13 MB	Adobe PDF	View/Open

Show full item record