Uma proposta de avaliação de embeddings de palavras por similaridade

Sousa, Ulisses Silva de

Use este identificador para citar ou linkar para este item: http://repositorio.ufc.br/handle/riufc/74839

Tipo:	TCC
Título:	Uma proposta de avaliação de embeddings de palavras por similaridade
Título em inglês:	A proposal for evaluating word embeddings by similarity
Autor(es):	Sousa, Ulisses Silva de
Orientador:	Silva, Ticiana Linhares Coelho da
Palavras-chave em português:	Word embeddings;Processamento de linguagem natural;Aprendizagem profunda;Similaridade
CNPq:	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Data do documento:	2022
Citação:	SOUSA, Ulisses Silva de. Uma proposta de avaliação de embeddings de palavras por similaridade. 2022. 45 f. TCC (Graduação em Sistemas e Mídias Digitais) - Universidade Federal do Ceará, Fortaleza, 2022.
Resumo:	A representação de texto humano em informações numéricas é uma tarefa difícil que tem sido investigada e utilizada no campo da Inteligência Artificial. Nesse contexto, o uso de representações vetoriais através de Word Embeddings e Sentence Embeddings para tarefas de Processamento de Linguagem Natural (Natural Language Processing em inglês) tornou-se muito comum no estado da arte, é também um conhecimento muito estudado na área de ciências de dados. Usá-los como camadas ocultas em modelos de Aprendizagem Profunda reduz muito os custos e melhora o desempenho da maioria das tarefas. Contudo, como existem muitos desses algoritmos e embeddings pré-treinadas, não é uma escolha óbvia para um cientista de dados qual modelo se encaixa melhor em seu contexto. Portanto, muitas estratégias buscam avaliar o desempenho de tais modelos, intrínseca e extrinsecamente, para que alguma intuição ou conclusão sobre eles possa ser utilizada para auxiliar no processo de criação de um modelo estatístico ou de Aprendizagem Profunda em Processamento de Linguagem Natural. Assim, buscando desenvolver uma forma de avaliar intrinsecamente alguns dos Word Embeddings clássicos, este trabalho propõe uma avaliação de Word Embeddings pré-treinados por meio da similaridade de palavras, investigando a semelhança semântica e associação entre palavras aprendidas pelos embeddings e baseando-os em conjuntos de dados pré-anotados de palavras sinônimas.
Abstract:	The representation of human text in numerical information is a difficult task that has been investigated and used on the field of Artificial Intelligence. In this context, the use of vector representations through Word Embeddings and Sentence Embeddings for Natural Language Processing tasks has become very common in the state of art, it is also a well-studied knowledge in the area of data sciences. Using them as hidden layers in Deep Learning models greatly reduces costs and improves performance for most tasks. However, as there are many such algorithms and pre-trained embeddings, it is not an obvious choice for a data scientist which model best fits their context. Therefore, many strategies seek to evaluate the performance of such models, intrinsically and extrinsically, so that some intuition or conclusion about them can be used to assist in the process of creating a statistical or Deep Learning model in Natural Language Processing. Thus, seeking to develop a way to intrinsically evaluate some of the classic Word Embeddings, this work proposes an evaluation of pre-trained Word Embeddings through word similarity, investigating the semantic similarity and association between learned words by embeddings and basing them on pre-annotated datasets of synonym words.
URI:	http://repositorio.ufc.br/handle/riufc/74839
Currículo Lattes do(s) Autor(es):	http://lattes.cnpq.br/0114203641493992
Currículo Lattes do Orientador:	http://lattes.cnpq.br/3125027229507836
Tipo de Acesso:	Acesso Aberto
Aparece nas coleções:	SISTEMAS E MÍDIAS DIGITAIS - Monografias

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
2022_tcc_ussousa.pdf		715,29 kB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas