Desenvolvimento de um Largue Language Model: uma estratégia de aprimoramento de transcrições de anamneses médicas

Gonçalves, Yanna Torres

Use este identificador para citar ou linkar para este item: http://repositorio.ufc.br/handle/riufc/85078

Tipo:	TCC
Título:	Desenvolvimento de um Largue Language Model: uma estratégia de aprimoramento de transcrições de anamneses médicas
Título em inglês:	Development of a Large Language Model: a strategy for improving medical history transcriptions
Autor(es):	Gonçalves, Yanna Torres
Orientador:	Carmo, Rafael Augusto Ferreira do
Coorientador:	Silva, Ticiana Linhares Coelho da
Palavras-chave em português:	Modelos Grandes de Linguagem (LLMs);Anamnese médica;Text Style Transfer (TST);Aprendizado de máquina
Palavras-chave em inglês:	Large Language Models (LLMs);Patient records;Text Style Transfer (TST);Machine learning
CNPq:	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Data do documento:	2024
Citação:	GONÇALVES, Yanna Torres. Desenvolvimento de um Largue Language Model: uma estratégia de aprimoramento de transcrições de anamneses médicas. 2026. 52 f. Trabalho de Conclusão de Curso (Graduação em Sistemas e Mídias Digitais) – Instituto UFC Virtual, Universidade Federal do Ceará, Fortaleza, 2024.
Resumo:	Este trabalho tem como objetivo explorar o desenvolvimento de um Large Language Model (LLM) para aprimorar transcrições de anamneses médicas. A pesquisa envolveu duas etapas principais: a primeira consistiu em um benchmark inicial de três modelos de linguagem (Phi3, Llama e Mistral), avaliando seu desempenho na tarefa de formatação de anamneses, e a segunda focou na aplicação de fine-tuning no modelo Mistral, com base em críticas qualitativas e quantitativas dos avaliadores. O modelo Mistral se destacou no benchmark devido à sua consistência e melhores resultados nas métricas de concordância, como os coeficientes de Kendall e Kappa, embora tenha sido criticado pela sobrecarga de detalhes em suas respostas, prejudicando sua objetividade. O modelo Llama apresentou o pior desempenho, com respostas frequentemente irrelevantes, enquanto o Phi3 teve um desempenho moderado, mas com falhas em precisão e uso excessivo de linguagem genérica. O fine-tuning aplicado ao modelo Mistral, apesar de tentar corrigir as falhas, não resultou em melhorias significativas, já que a média das avaliações foi ligeiramente inferior à do modelo original. As principais contribuições deste trabalho incluem a comparação de modelos de linguagem para uma tarefa específica da área médica e a análise das limitações do processo de fine-tuning. O estudo também identificou limitações importantes, como a qualidade dos dados e o viés potencial entre os avaliadores, que podem ter influenciado os resultados. Como trabalhos futuros, pretende-se realizar treinamentos mais longos, expandir e diversificar o conjunto de dados e explorar novas abordagens de aprendizado de máquina para melhorar ainda mais o desempenho do modelo.
Abstract:	This work aims to explore the development of a Large Language Model (LLM) to enhance the transcription of patient records. The research involved two main stages: the first consisted of an initial benchmark of three language models (Phi3, Llama, and Mistral), evaluating their performance in the task of formatting anamneses, and the second focused on fine-tuning the Mistral model, based on qualitative and quantitative feedback from the evaluators. The Mistral model stood out in the benchmark due to its consistency and better results in agreement metrics, such as Kendall’s tau and Fleiss’ Kappa coefficients, although it was criticized for overloading details in its responses, impairing its objectivity. The Llama model performed the worst, with responses that were often irrelevant, while Phi3 showed moderate performance, but with issues in precision and excessive use of generic language. The fine-tuning of the Mistral model, despite attempts to correct the flaws, did not result in significant improvements, as the average evaluation score was slightly lower than the original model. The main contributions of this work include the comparison of language models for a specific task in the medical field and the analysis of the limitations of the fine-tuning process. The study also identified important limitations, such as data quality and potential bias among the evaluators, which may have influenced the results. As future work, the intention is to conduct longer training sessions, expand and diversify the dataset, and explore new machine learning approaches to further improve the model’s performance.
URI:	http://repositorio.ufc.br/handle/riufc/85078
Currículo Lattes do(s) Autor(es):	https://lattes.cnpq.br/4596665817819063
Currículo Lattes do Orientador:	https://lattes.cnpq.br/3102406452063651
Currículo Lattes do Coorientador:	https://lattes.cnpq.br/3125027229507836
Tipo de Acesso:	Acesso Aberto
Aparece nas coleções:	SISTEMAS E MÍDIAS DIGITAIS - Monografias

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
2024_tcc_ytgoncalves.pdf		1,59 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas