Use este identificador para citar ou linkar para este item:
http://repositorio.ufc.br/handle/riufc/85078| Tipo: | TCC |
| Título: | Desenvolvimento de um Largue Language Model: uma estratégia de aprimoramento de transcrições de anamneses médicas |
| Título em inglês: | Development of a Large Language Model: a strategy for improving medical history transcriptions |
| Autor(es): | Gonçalves, Yanna Torres |
| Orientador: | Carmo, Rafael Augusto Ferreira do |
| Coorientador: | Silva, Ticiana Linhares Coelho da |
| Palavras-chave em português: | Modelos Grandes de Linguagem (LLMs);Anamnese médica;Text Style Transfer (TST);Aprendizado de máquina |
| Palavras-chave em inglês: | Large Language Models (LLMs);Patient records;Text Style Transfer (TST);Machine learning |
| CNPq: | CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
| Data do documento: | 2024 |
| Citação: | GONÇALVES, Yanna Torres. Desenvolvimento de um Largue Language Model: uma estratégia de aprimoramento de transcrições de anamneses médicas. 2026. 52 f. Trabalho de Conclusão de Curso (Graduação em Sistemas e Mídias Digitais) – Instituto UFC Virtual, Universidade Federal do Ceará, Fortaleza, 2024. |
| Resumo: | Este trabalho tem como objetivo explorar o desenvolvimento de um Large Language Model (LLM) para aprimorar transcrições de anamneses médicas. A pesquisa envolveu duas etapas principais: a primeira consistiu em um benchmark inicial de três modelos de linguagem (Phi3, Llama e Mistral), avaliando seu desempenho na tarefa de formatação de anamneses, e a segunda focou na aplicação de fine-tuning no modelo Mistral, com base em críticas qualitativas e quantitativas dos avaliadores. O modelo Mistral se destacou no benchmark devido à sua consistência e melhores resultados nas métricas de concordância, como os coeficientes de Kendall e Kappa, embora tenha sido criticado pela sobrecarga de detalhes em suas respostas, prejudicando sua objetividade. O modelo Llama apresentou o pior desempenho, com respostas frequentemente irrelevantes, enquanto o Phi3 teve um desempenho moderado, mas com falhas em precisão e uso excessivo de linguagem genérica. O fine-tuning aplicado ao modelo Mistral, apesar de tentar corrigir as falhas, não resultou em melhorias significativas, já que a média das avaliações foi ligeiramente inferior à do modelo original. As principais contribuições deste trabalho incluem a comparação de modelos de linguagem para uma tarefa específica da área médica e a análise das limitações do processo de fine-tuning. O estudo também identificou limitações importantes, como a qualidade dos dados e o viés potencial entre os avaliadores, que podem ter influenciado os resultados. Como trabalhos futuros, pretende-se realizar treinamentos mais longos, expandir e diversificar o conjunto de dados e explorar novas abordagens de aprendizado de máquina para melhorar ainda mais o desempenho do modelo. |
| Abstract: | This work aims to explore the development of a Large Language Model (LLM) to enhance the transcription of patient records. The research involved two main stages: the first consisted of an initial benchmark of three language models (Phi3, Llama, and Mistral), evaluating their performance in the task of formatting anamneses, and the second focused on fine-tuning the Mistral model, based on qualitative and quantitative feedback from the evaluators. The Mistral model stood out in the benchmark due to its consistency and better results in agreement metrics, such as Kendall’s tau and Fleiss’ Kappa coefficients, although it was criticized for overloading details in its responses, impairing its objectivity. The Llama model performed the worst, with responses that were often irrelevant, while Phi3 showed moderate performance, but with issues in precision and excessive use of generic language. The fine-tuning of the Mistral model, despite attempts to correct the flaws, did not result in significant improvements, as the average evaluation score was slightly lower than the original model. The main contributions of this work include the comparison of language models for a specific task in the medical field and the analysis of the limitations of the fine-tuning process. The study also identified important limitations, such as data quality and potential bias among the evaluators, which may have influenced the results. As future work, the intention is to conduct longer training sessions, expand and diversify the dataset, and explore new machine learning approaches to further improve the model’s performance. |
| URI: | http://repositorio.ufc.br/handle/riufc/85078 |
| Currículo Lattes do(s) Autor(es): | https://lattes.cnpq.br/4596665817819063 |
| Currículo Lattes do Orientador: | https://lattes.cnpq.br/3102406452063651 |
| Currículo Lattes do Coorientador: | https://lattes.cnpq.br/3125027229507836 |
| Tipo de Acesso: | Acesso Aberto |
| Aparece nas coleções: | SISTEMAS E MÍDIAS DIGITAIS - Monografias |
Arquivos associados a este item:
| Arquivo | Descrição | Tamanho | Formato | |
|---|---|---|---|---|
| 2024_tcc_ytgoncalves.pdf | 1,59 MB | Adobe PDF | Visualizar/Abrir |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.