Linguagem simples com LLMS: avaliação de simplificação textual no contexto administrativo da UFC Inova

Holanda, João Pedro Pereira

Use este identificador para citar ou linkar para este item: http://repositorio.ufc.br/handle/riufc/85754

Tipo:	TCC
Título:	Linguagem simples com LLMS: avaliação de simplificação textual no contexto administrativo da UFC Inova
Autor(es):	Holanda, João Pedro Pereira
Orientador:	Magalhães, Regis Pires
Coorientador:	Almendra, Camilo Camilo
Palavras-chave em português:	linguagem simples;grandes modelos de linguagem;simplificação textual;sumarização textual;complexidade textual
CNPq:	CNPQ: CIENCIAS EXATAS E DA TERRA
Data do documento:	2026
Citação:	HOLANDA, João Pedro Pereira. Linguagem simples com LLMS: avaliação de simplificação textual no contexto administrativo da UFC Inova. 2026. 86 f. Trabalho de Conclusão de Curso (Graduação em Engenharia de Software) - Campus de Quixadá, Universidade Federal do Ceará, Quixadá, 2026.
Resumo:	A Linguagem Simples é um conjunto de práticas de escrita que busca facilitar a leitura de documents públicos para transmitir informações importantes mais rapidamente, além de promover a acessibilidade e transparência. No ano de 2025 o Governo Brasileiro sancionou a Lei n° 15.263, que institui a Política Nacional de Linguagem Simples. A UFC Inova já publica versões em linguagem simplificada de parte dos seus editais desde 2021, mas a escrita deles é realizada manualmente, exigindo bastante tempo e esforço extra de seus colaboradores. A partir desses pressupostos, este trabalho discorre sobre a utilização de Inteligência Artificial Generativa (IAG) para realizar a simplificação textual, comparando a desempenho de Grandes Modelos de Linguagem (LLMs) proprietários e abertos. A avaliação utilizou índices de inteligibilidade consolidados, métricas morfossintáticas relacionadas à complexidade textual e métricas de similaridade semântica dos textos produzidos. Foram realizadas duas iterações do processo de simplificação textual, na primeira avaliação os modelos proprietários e abertos com melhores resultados nos índices e métricas linguísticas foram o Gemini 2.5 Flash e o Qwen2.5:14b, respectivamente, mas o Gemma3:4b e Gemini 2.5 Pro foram os que obtiveram maior similaridade semântica em relação à versão completa original, com BERTScore de 0,826 e 0,760, respectivamente. Após a avaliação pelo público-alvo em um questionário online, o processo foi adaptado para realizar a sumarização e simplificação dos documentos conjuntamente e novos textos foram gerados, os resultados dessa segunda iteração mostram a eficiência da sumarização combinada com simplificação, com 7 dos 9 modelos obtendo melhorias significativas no tamanho médio das sentenças e o Qwen3:14b tendo performance comparável com o Gemini 2.5 Pro. Os textos gerados foram comparados com os documentos simplificados já existentes e os melhores resultados da similaridade semântica foram, novamente, o Gemini 2.5 Pro e o Gemma3:4b, ambos com BERTScore de 0,665.
Abstract:	Plain Language consists of a set of practices to write easier to read public documents, aiming to expose relevation information quicker, and also promote accessiblity and transparency. In 2025, the Brazilian government sanctioned the law n° 15.263, which establishes the National Policy of Plain Language. The UFC Inova institution already publishes plain language versions of some of Its documents since 2021, but they are written manually, requiring extra time and work of the colaborators. Using that backgroudn, this work discuss the use of Generative Artificial Inteligence (GenAI) to perform text simplification, comparing the performance of proprietary and open Large Language Models (LLMs). The evaluation used consolidated readability indexes, morphosyntactic metrics related to text complexity and semantic similarity metrics on the generated texts. Two iterations of text simplification were performed, in the first one, the best proprietary and open models were Gemini 2.5 Flash and Qwen2.5:14b, respectively, but Gemma3:4b and Gemini 2.5 Pro had the best semantic similarity, with BERTSCores of 0.826 and 0.760. After the audience evaluation in an online survey, the process was adapted to perform summarization and simplification jointly. The results of this second iteration show the efficiency of summarization combined with simplification, having 7 out of 9 models with significant improvements on the average sentence size and Qwen3:14b having a performance on par with Gemini 2.5 Pro’s. Generated texts were compared with the existing simplified version and the models with the best results were, again, Gemini 2.5 Pro and Gemma3:4b, both with a 0.665 BERTScore, the similarity scores were lower in general, sitting around 0.622 and 0.684.
URI:	http://repositorio.ufc.br/handle/riufc/85754
Currículo Lattes do Orientador:	http://lattes.cnpq.br/7195981513707548
Tipo de Acesso:	Acesso Aberto
Aparece nas coleções:	ENGENHARIA DE SOFTWARE - QUIXADÁ - TCC

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
2026_tcc_jppholanda.pdf		10,37 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas