Uma proposta de avaliação de embeddings de palavras por similaridade

Sousa, Ulisses Silva de

Please use this identifier to cite or link to this item: http://repositorio.ufc.br/handle/riufc/74839

Type:	TCC
Title:	Uma proposta de avaliação de embeddings de palavras por similaridade
Title in English:	A proposal for evaluating word embeddings by similarity
Authors:	Sousa, Ulisses Silva de
Advisor:	Silva, Ticiana Linhares Coelho da
Keywords in Brazilian Portuguese :	Word embeddings;Processamento de linguagem natural;Aprendizagem profunda;Similaridade
Knowledge Areas - CNPq:	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Issue Date:	2022
Citation:	SOUSA, Ulisses Silva de. Uma proposta de avaliação de embeddings de palavras por similaridade. 2022. 45 f. TCC (Graduação em Sistemas e Mídias Digitais) - Universidade Federal do Ceará, Fortaleza, 2022.
Abstract in Brazilian Portuguese:	A representação de texto humano em informações numéricas é uma tarefa difícil que tem sido investigada e utilizada no campo da Inteligência Artificial. Nesse contexto, o uso de representações vetoriais através de Word Embeddings e Sentence Embeddings para tarefas de Processamento de Linguagem Natural (Natural Language Processing em inglês) tornou-se muito comum no estado da arte, é também um conhecimento muito estudado na área de ciências de dados. Usá-los como camadas ocultas em modelos de Aprendizagem Profunda reduz muito os custos e melhora o desempenho da maioria das tarefas. Contudo, como existem muitos desses algoritmos e embeddings pré-treinadas, não é uma escolha óbvia para um cientista de dados qual modelo se encaixa melhor em seu contexto. Portanto, muitas estratégias buscam avaliar o desempenho de tais modelos, intrínseca e extrinsecamente, para que alguma intuição ou conclusão sobre eles possa ser utilizada para auxiliar no processo de criação de um modelo estatístico ou de Aprendizagem Profunda em Processamento de Linguagem Natural. Assim, buscando desenvolver uma forma de avaliar intrinsecamente alguns dos Word Embeddings clássicos, este trabalho propõe uma avaliação de Word Embeddings pré-treinados por meio da similaridade de palavras, investigando a semelhança semântica e associação entre palavras aprendidas pelos embeddings e baseando-os em conjuntos de dados pré-anotados de palavras sinônimas.
Abstract:	The representation of human text in numerical information is a difficult task that has been investigated and used on the field of Artificial Intelligence. In this context, the use of vector representations through Word Embeddings and Sentence Embeddings for Natural Language Processing tasks has become very common in the state of art, it is also a well-studied knowledge in the area of data sciences. Using them as hidden layers in Deep Learning models greatly reduces costs and improves performance for most tasks. However, as there are many such algorithms and pre-trained embeddings, it is not an obvious choice for a data scientist which model best fits their context. Therefore, many strategies seek to evaluate the performance of such models, intrinsically and extrinsically, so that some intuition or conclusion about them can be used to assist in the process of creating a statistical or Deep Learning model in Natural Language Processing. Thus, seeking to develop a way to intrinsically evaluate some of the classic Word Embeddings, this work proposes an evaluation of pre-trained Word Embeddings through word similarity, investigating the semantic similarity and association between learned words by embeddings and basing them on pre-annotated datasets of synonym words.
URI:	http://repositorio.ufc.br/handle/riufc/74839
Author's Lattes:	http://lattes.cnpq.br/0114203641493992
Advisor's Lattes:	http://lattes.cnpq.br/3125027229507836
Access Rights:	Acesso Aberto
Appears in Collections:	SISTEMAS E MÍDIAS DIGITAIS - Monografias

Files in This Item:

File	Description	Size	Format
2022_tcc_ussousa.pdf		715,29 kB	Adobe PDF	View/Open

Show full item record