Modelos de linguagem Transformer: uma análise comparativa de abordagens de construção, especialização e otimização

Eufrásio Filho, Moisés Conrado Marinho

Use este identificador para citar ou linkar para este item: http://repositorio.ufc.br/handle/riufc/83048

Tipo:	TCC
Título:	Modelos de linguagem Transformer: uma análise comparativa de abordagens de construção, especialização e otimização
Autor(es):	Eufrásio Filho, Moisés Conrado Marinho
Orientador:	Anjos, Julio Cesar Santos dos
Palavras-chave em português:	Modelos de linguagem;Transformers;Pequenos modelos de linguagem (SLMs);Ajuste fino (Fine-tuning);Otimização de treinamento
Palavras-chave em inglês:	Language models;Transformers;Small language models (SLMs);Fine-tuning;Training optimization
CNPq:	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Data do documento:	2025
Citação:	EUFRÁSIO FILHO, Moisés Conrado Marinho. Modelos de linguagem Transformer: uma análise comparativa de abordagens de construção, especialização e otimização. 2025. 54 f. Trabalho de Conclusão de Curso (Bacharelado em Engenharia de Computação) — Centro de Tecnologia, Universidade Federal do Ceará, Fortaleza, 2025.
Resumo:	Este trabalho realiza uma avaliação sistemática de três abordagens distintas para o desenvolvimento de modelos de linguagem baseados na arquitetura Transformer, com o objetivo de otimizar a relação entre desempenho e custo computacional. A primeira abordagem consiste na construção de um modelo a partir de seus componentes fundamentais, estabelecendo uma base sobre a mecânica da arquitetura. A segunda investiga a especialização de um modelo pré-treinado (GPT-2) através do ajuste fino (fine-tuning) para tarefas específicas, como classificação de texto e seguimento de instruções. A terceira abordagem propõe e valida um pipeline de treinamento otimizado para um Pequeno Modelo de Linguagem (SLM) de 15 milhões de parâmetros, utilizando dados de alta qualidade e técnicas de eficiência computacional. Os resultados demonstram a eficácia do ajuste fino como um método poderoso para adaptar modelos a aplicações especializadas. Crucialmente, a pesquisa valida a hipótese de que a alta qualidade dos dados pode compensar o tamanho reduzido do modelo, permitindo que o SLM atinja notável coerência e correção gramatical, desafiando o paradigma de que modelos maiores são invariavelmente superiores. Conclui-se que o desenvolvimento de modelos eficazes depende de um balanço estratégico entre a escala do modelo, a qualidade dos dados e os recursos computacionais disponíveis, destacando os SLMs como uma alternativa viável e sustentável.
Abstract:	This work undertakes a systematic evaluation of three distinct approaches for developing Transformer-based language models, aiming to optimize the trade-off between performance and computational cost. The first approach consists of constructing a model from its fundamental components, establishing a foundational understanding of the architecture’s mechanics. The second investigates the specialization of a pre-trained model (GPT-2) through fine-tuning for specific tasks, namely text classification and instruction following. The third approach proposes and validates an optimized training pipeline for a Small Language Model (SLM) with 15 million parameters, leveraging high-quality data and computational efficiency techniques. The findings demonstrate the effectiveness of fine-tuning as a powerful method for adapting models to specialized applications. Critically, the research validates the hypothesis that high-quality data can compensate for a reduced model size, enabling the SLM to achieve remarkable coherence and grammatical correctness, challenging the paradigm that larger models are invariably superior. The study concludes that the development of effective models depends on a strategic balance between model scale, data quality, and available computational resources, highlighting SLMs as a viable and sustainable alternative.
URI:	http://repositorio.ufc.br/handle/riufc/83048
Currículo Lattes do Orientador:	http://lattes.cnpq.br/6494697249794448
Tipo de Acesso:	Acesso Aberto
Aparece nas coleções:	ENGENHARIA DE COMPUTAÇÃO - Monografias

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
2025_tcc_mcmeufrásiofilho.pdf		1,17 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas