Use este identificador para citar ou linkar para este item: http://repositorio.ufc.br/handle/riufc/74839
Registro completo de metadados
Campo DCValorIdioma
dc.contributor.advisorSilva, Ticiana Linhares Coelho da-
dc.contributor.authorSousa, Ulisses Silva de-
dc.date.accessioned2023-10-31T11:39:03Z-
dc.date.available2023-10-31T11:39:03Z-
dc.date.issued2022-
dc.identifier.citationSOUSA, Ulisses Silva de. Uma proposta de avaliação de embeddings de palavras por similaridade. 2022. 45 f. TCC (Graduação em Sistemas e Mídias Digitais) - Universidade Federal do Ceará, Fortaleza, 2022.pt_BR
dc.identifier.urihttp://repositorio.ufc.br/handle/riufc/74839-
dc.description.abstractThe representation of human text in numerical information is a difficult task that has been investigated and used on the field of Artificial Intelligence. In this context, the use of vector representations through Word Embeddings and Sentence Embeddings for Natural Language Processing tasks has become very common in the state of art, it is also a well-studied knowledge in the area of data sciences. Using them as hidden layers in Deep Learning models greatly reduces costs and improves performance for most tasks. However, as there are many such algorithms and pre-trained embeddings, it is not an obvious choice for a data scientist which model best fits their context. Therefore, many strategies seek to evaluate the performance of such models, intrinsically and extrinsically, so that some intuition or conclusion about them can be used to assist in the process of creating a statistical or Deep Learning model in Natural Language Processing. Thus, seeking to develop a way to intrinsically evaluate some of the classic Word Embeddings, this work proposes an evaluation of pre-trained Word Embeddings through word similarity, investigating the semantic similarity and association between learned words by embeddings and basing them on pre-annotated datasets of synonym words.pt_BR
dc.language.isopt_BRpt_BR
dc.rightsAcesso Abertopt_BR
dc.titleUma proposta de avaliação de embeddings de palavras por similaridadept_BR
dc.typeTCCpt_BR
dc.description.abstract-ptbrA representação de texto humano em informações numéricas é uma tarefa difícil que tem sido investigada e utilizada no campo da Inteligência Artificial. Nesse contexto, o uso de representações vetoriais através de Word Embeddings e Sentence Embeddings para tarefas de Processamento de Linguagem Natural (Natural Language Processing em inglês) tornou-se muito comum no estado da arte, é também um conhecimento muito estudado na área de ciências de dados. Usá-los como camadas ocultas em modelos de Aprendizagem Profunda reduz muito os custos e melhora o desempenho da maioria das tarefas. Contudo, como existem muitos desses algoritmos e embeddings pré-treinadas, não é uma escolha óbvia para um cientista de dados qual modelo se encaixa melhor em seu contexto. Portanto, muitas estratégias buscam avaliar o desempenho de tais modelos, intrínseca e extrinsecamente, para que alguma intuição ou conclusão sobre eles possa ser utilizada para auxiliar no processo de criação de um modelo estatístico ou de Aprendizagem Profunda em Processamento de Linguagem Natural. Assim, buscando desenvolver uma forma de avaliar intrinsecamente alguns dos Word Embeddings clássicos, este trabalho propõe uma avaliação de Word Embeddings pré-treinados por meio da similaridade de palavras, investigando a semelhança semântica e associação entre palavras aprendidas pelos embeddings e baseando-os em conjuntos de dados pré-anotados de palavras sinônimas.pt_BR
dc.title.enA proposal for evaluating word embeddings by similaritypt_BR
dc.subject.ptbrWord embeddingspt_BR
dc.subject.ptbrProcessamento de linguagem naturalpt_BR
dc.subject.ptbrAprendizagem profundapt_BR
dc.subject.ptbrSimilaridadept_BR
dc.subject.cnpqCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOpt_BR
local.author.latteshttp://lattes.cnpq.br/0114203641493992pt_BR
local.advisor.latteshttp://lattes.cnpq.br/3125027229507836pt_BR
local.date.available2023-10-31-
Aparece nas coleções:SISTEMAS E MÍDIAS DIGITAIS - Monografias

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
2022_tcc_ussousa.pdf715,29 kBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.