Um benchmark para avaliação de grandes modelos de linguagem no português usando questões do exame nacional do ensino médio

Rodrigues, Carlos Gabriel de Castro

Please use this identifier to cite or link to this item: http://repositorio.ufc.br/handle/riufc/81270

Full metadata record

DC Field	Value	Language
dc.contributor.advisor	Magalhães, Regis Pires	-
dc.contributor.author	Rodrigues, Carlos Gabriel de Castro	-
dc.date.accessioned	2025-06-12T14:50:00Z	-
dc.date.available	2025-06-12T14:50:00Z	-
dc.date.issued	2025	-
dc.identifier.citation	RODRIGUES, Carlos Gabriel de Castro. Um benchmark para avaliação de grandes modelos de linguagem no português usando questões do exame nacional do ensino médio. 2025. 59 f. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) - Campus de Quixadá, Universidade Federal do Ceará, Quixadá, 2025.	pt_BR
dc.identifier.uri	http://repositorio.ufc.br/handle/riufc/81270	-
dc.description.abstract	Large Language Models (LLMs) have become fundamental to many applications, including artificial intelligence, natural language processing and automation systems. However, evaluating their performance in Portuguese still presents challenges, since most of the available benchmarks are focused on English. This paper proposes a benchmark for evaluating LLMs in Portuguese, using multiple-choice questions taken from the National High School Exam (ENEM) from different years. The aim is to measure the accuracy of the models and their adherence to the explicit instructions in the prompts. To this end, several open source models were tested, evaluating their accuracy and compliance in the formatting of the answers. The results indicate that there are significant variations in the performance of the models, highlighting the need to improve their adaptation into Portuguese. In addition, the study contributes to the creation of more effective methodologies for evaluating and developing LLMs for the Portuguese language.	pt_BR
dc.language.iso	pt_BR	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.title	Um benchmark para avaliação de grandes modelos de linguagem no português usando questões do exame nacional do ensino médio	pt_BR
dc.type	TCC	pt_BR
dc.contributor.co-advisor	Rêgo, Luis Gustavo Coutinho do	-
dc.description.abstract-ptbr	Grandes Modelos de Linguagem (LLMs) têm se tornado fundamentais para diversas aplicações, incluindo inteligência artificial, processamento de linguagem natural e sistemas de automação. No entanto, a avaliação de seu desempenho em português ainda apresenta desafios, uma vez que a maioria dos benchmarks disponíveis está focada no inglês. Este trabalho propõe um benchmark para a avaliação de LLMs na língua portuguesa, utilizando questões de múltipla escolha extraídas do Exame Nacional do Ensino Médio (ENEM) de diferentes anos. O objetivo é medir a acurácia dos modelos e sua aderência às instruções explícitas nos prompts. Para isso, foram testados diversos modelos de código aberto, avaliando sua acurácia e conformidade na formatação das respostas. Os resultados indicam que há variações significativas no desempenho dos modelos, evidenciando a necessidade de aprimoramento na adaptação para o português. Além disso, o estudo contribui para a criação de metodologias mais eficazes de avaliação e desenvolvimento de LLMs para a língua portuguesa.	pt_BR
dc.subject.ptbr	grandes modelos de linguagem	pt_BR
dc.subject.ptbr	benchmark	pt_BR
dc.subject.ptbr	avaliação	pt_BR
dc.subject.cnpq	CNPQ: CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO	pt_BR
local.advisor.lattes	http://lattes.cnpq.br/7195981513707548	pt_BR
local.co-advisor.lattes	http://lattes.cnpq.br/4359553644291293	pt_BR
Appears in Collections:	CIÊNCIA DA COMPUTAÇÃO-QUIXADÁ - Monografias

Files in This Item:

File	Description	Size	Format
2025_tcc_cgcrodrigue (1).pdf		727,95 kB	Adobe PDF	View/Open

Show simple item record