Use este identificador para citar ou linkar para este item:
http://repositorio.ufc.br/handle/riufc/74839
Registro completo de metadados
Campo DC | Valor | Idioma |
---|---|---|
dc.contributor.advisor | Silva, Ticiana Linhares Coelho da | - |
dc.contributor.author | Sousa, Ulisses Silva de | - |
dc.date.accessioned | 2023-10-31T11:39:03Z | - |
dc.date.available | 2023-10-31T11:39:03Z | - |
dc.date.issued | 2022 | - |
dc.identifier.citation | SOUSA, Ulisses Silva de. Uma proposta de avaliação de embeddings de palavras por similaridade. 2022. 45 f. TCC (Graduação em Sistemas e Mídias Digitais) - Universidade Federal do Ceará, Fortaleza, 2022. | pt_BR |
dc.identifier.uri | http://repositorio.ufc.br/handle/riufc/74839 | - |
dc.description.abstract | The representation of human text in numerical information is a difficult task that has been investigated and used on the field of Artificial Intelligence. In this context, the use of vector representations through Word Embeddings and Sentence Embeddings for Natural Language Processing tasks has become very common in the state of art, it is also a well-studied knowledge in the area of data sciences. Using them as hidden layers in Deep Learning models greatly reduces costs and improves performance for most tasks. However, as there are many such algorithms and pre-trained embeddings, it is not an obvious choice for a data scientist which model best fits their context. Therefore, many strategies seek to evaluate the performance of such models, intrinsically and extrinsically, so that some intuition or conclusion about them can be used to assist in the process of creating a statistical or Deep Learning model in Natural Language Processing. Thus, seeking to develop a way to intrinsically evaluate some of the classic Word Embeddings, this work proposes an evaluation of pre-trained Word Embeddings through word similarity, investigating the semantic similarity and association between learned words by embeddings and basing them on pre-annotated datasets of synonym words. | pt_BR |
dc.language.iso | pt_BR | pt_BR |
dc.rights | Acesso Aberto | pt_BR |
dc.title | Uma proposta de avaliação de embeddings de palavras por similaridade | pt_BR |
dc.type | TCC | pt_BR |
dc.description.abstract-ptbr | A representação de texto humano em informações numéricas é uma tarefa difícil que tem sido investigada e utilizada no campo da Inteligência Artificial. Nesse contexto, o uso de representações vetoriais através de Word Embeddings e Sentence Embeddings para tarefas de Processamento de Linguagem Natural (Natural Language Processing em inglês) tornou-se muito comum no estado da arte, é também um conhecimento muito estudado na área de ciências de dados. Usá-los como camadas ocultas em modelos de Aprendizagem Profunda reduz muito os custos e melhora o desempenho da maioria das tarefas. Contudo, como existem muitos desses algoritmos e embeddings pré-treinadas, não é uma escolha óbvia para um cientista de dados qual modelo se encaixa melhor em seu contexto. Portanto, muitas estratégias buscam avaliar o desempenho de tais modelos, intrínseca e extrinsecamente, para que alguma intuição ou conclusão sobre eles possa ser utilizada para auxiliar no processo de criação de um modelo estatístico ou de Aprendizagem Profunda em Processamento de Linguagem Natural. Assim, buscando desenvolver uma forma de avaliar intrinsecamente alguns dos Word Embeddings clássicos, este trabalho propõe uma avaliação de Word Embeddings pré-treinados por meio da similaridade de palavras, investigando a semelhança semântica e associação entre palavras aprendidas pelos embeddings e baseando-os em conjuntos de dados pré-anotados de palavras sinônimas. | pt_BR |
dc.title.en | A proposal for evaluating word embeddings by similarity | pt_BR |
dc.subject.ptbr | Word embeddings | pt_BR |
dc.subject.ptbr | Processamento de linguagem natural | pt_BR |
dc.subject.ptbr | Aprendizagem profunda | pt_BR |
dc.subject.ptbr | Similaridade | pt_BR |
dc.subject.cnpq | CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO | pt_BR |
local.author.lattes | http://lattes.cnpq.br/0114203641493992 | pt_BR |
local.advisor.lattes | http://lattes.cnpq.br/3125027229507836 | pt_BR |
local.date.available | 2023-10-31 | - |
Aparece nas coleções: | SISTEMAS E MÍDIAS DIGITAIS - Monografias |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
2022_tcc_ussousa.pdf | 715,29 kB | Adobe PDF | Visualizar/Abrir |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.