Modelos de linguagem Transformer: uma análise comparativa de abordagens de construção, especialização e otimização

Eufrásio Filho, Moisés Conrado Marinho

Por favor, use este identificador para citar o enlazar este ítem: http://repositorio.ufc.br/handle/riufc/83048

Tipo:	TCC
Título :	Modelos de linguagem Transformer: uma análise comparativa de abordagens de construção, especialização e otimização
Autor :	Eufrásio Filho, Moisés Conrado Marinho
Tutor:	Anjos, Julio Cesar Santos dos
Palabras clave en portugués brasileño:	Modelos de linguagem;Transformers;Pequenos modelos de linguagem (SLMs);Ajuste fino (Fine-tuning);Otimização de treinamento
Palabras clave en inglés:	Language models;Transformers;Small language models (SLMs);Fine-tuning;Training optimization
Áreas de Conocimiento - CNPq:	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Fecha de publicación :	2025
Citación :	EUFRÁSIO FILHO, Moisés Conrado Marinho. Modelos de linguagem Transformer: uma análise comparativa de abordagens de construção, especialização e otimização. 2025. 54 f. Trabalho de Conclusão de Curso (Bacharelado em Engenharia de Computação) — Centro de Tecnologia, Universidade Federal do Ceará, Fortaleza, 2025.
Resumen en portugués brasileño:	Este trabalho realiza uma avaliação sistemática de três abordagens distintas para o desenvolvimento de modelos de linguagem baseados na arquitetura Transformer, com o objetivo de otimizar a relação entre desempenho e custo computacional. A primeira abordagem consiste na construção de um modelo a partir de seus componentes fundamentais, estabelecendo uma base sobre a mecânica da arquitetura. A segunda investiga a especialização de um modelo pré-treinado (GPT-2) através do ajuste fino (fine-tuning) para tarefas específicas, como classificação de texto e seguimento de instruções. A terceira abordagem propõe e valida um pipeline de treinamento otimizado para um Pequeno Modelo de Linguagem (SLM) de 15 milhões de parâmetros, utilizando dados de alta qualidade e técnicas de eficiência computacional. Os resultados demonstram a eficácia do ajuste fino como um método poderoso para adaptar modelos a aplicações especializadas. Crucialmente, a pesquisa valida a hipótese de que a alta qualidade dos dados pode compensar o tamanho reduzido do modelo, permitindo que o SLM atinja notável coerência e correção gramatical, desafiando o paradigma de que modelos maiores são invariavelmente superiores. Conclui-se que o desenvolvimento de modelos eficazes depende de um balanço estratégico entre a escala do modelo, a qualidade dos dados e os recursos computacionais disponíveis, destacando os SLMs como uma alternativa viável e sustentável.
Abstract:	This work undertakes a systematic evaluation of three distinct approaches for developing Transformer-based language models, aiming to optimize the trade-off between performance and computational cost. The first approach consists of constructing a model from its fundamental components, establishing a foundational understanding of the architecture’s mechanics. The second investigates the specialization of a pre-trained model (GPT-2) through fine-tuning for specific tasks, namely text classification and instruction following. The third approach proposes and validates an optimized training pipeline for a Small Language Model (SLM) with 15 million parameters, leveraging high-quality data and computational efficiency techniques. The findings demonstrate the effectiveness of fine-tuning as a powerful method for adapting models to specialized applications. Critically, the research validates the hypothesis that high-quality data can compensate for a reduced model size, enabling the SLM to achieve remarkable coherence and grammatical correctness, challenging the paradigm that larger models are invariably superior. The study concludes that the development of effective models depends on a strategic balance between model scale, data quality, and available computational resources, highlighting SLMs as a viable and sustainable alternative.
URI :	http://repositorio.ufc.br/handle/riufc/83048
Lattes del tutor:	http://lattes.cnpq.br/6494697249794448
Derechos de acceso:	Acesso Aberto
Aparece en las colecciones:	ENGENHARIA DE COMPUTAÇÃO - Monografias

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
2025_tcc_mcmeufrásiofilho.pdf		1,17 MB	Adobe PDF	Visualizar/Abrir

Mostrar el registro Dublin Core completo del ítem