Mostrar registro simples

dc.contributor.advisorBalreira, Dennis Giovanipt_BR
dc.contributor.authorBraun, Joao Pedro Kuhnpt_BR
dc.date.accessioned2025-08-09T08:02:37Zpt_BR
dc.date.issued2025pt_BR
dc.identifier.urihttp://hdl.handle.net/10183/294925pt_BR
dc.description.abstractO reconhecimento de entidades nomeadas (NER) em textos clínicos é uma tarefa fundamental para aplicações em saúde digital, especialmente quando se trata de idiomas com menos recursos, como o português. Este trabalho investiga a aplicação de modelos de linguagem generativos decoder-only para tal tarefa. Três modelos foram avaliados, BioMistral-7B, Gemma-7B-IT e Mistral-7B-v2, por meio de oito estratégias de prompting, variando entre abordagens zero-shot, one-shot, few-shot e GT-shot, com e sem o uso de persona, testando com exemplos do corpus SemClinBr. Os resultados mostraram limitações significativas no desempenho dos modelos, com destaque para o BioMistral, que, apesar de ser o mais especializado na tarefa, apresentou desempenho inferior. Os modelos apresentaram os melhores resultados de micro-F1, principal métrica do trabalho, quando usado few-shot, obtendo valores de 10,63%, 13,18%, e 11,42%, respectivamente. Conclui-se que, para NER no português no domínio médico, ainda são necessários modelos mais adequados e há espaço de melhorias para esse cenário.pt_BR
dc.description.abstractNamed Entity Recognition (NER) in clinical texts is a fundamental task for digital health applications, especially in low-resource languages such as Portuguese. This work inves tigates the application of decoder-only generative language models for this task. Three models were evaluated, BioMistral-7B, Gemma-7B-IT and Mistral-7B-v2, using eight prompting strategies, being them zero-shot, one-shot, few-shot, and GT-shot, with and without the use of a persona, testing with examples from the corpus SemClinBr. The results revealed significant limitations in model performance, particularly for BioMistral, which, despite being the most specialized for the task, performed worse. The models achieved their best micro-F1 scores, the main metric used in this study, with few-shot, having values of 10,63%, 13,18%, and 11,42%, respectively. It is concluded that for NER in Portuguese within the medical domain, more suitable models are still needed and there is room for improvement in this area.en
dc.format.mimetypeapplication/pdfpt_BR
dc.language.isoporpt_BR
dc.rightsOpen Accessen
dc.subjectReconhecimento de entidade nomeadapt_BR
dc.subjectModelos de linguagem generativospt_BR
dc.subjectTextos clínicos em portuguêspt_BR
dc.subjectProcessamento de linguagem naturalpt_BR
dc.titleAnálise de modelos de linguagem para extração de entidades nomeadas em documentos médicos em portuguêspt_BR
dc.title.alternativeAnalysis of language models for named entity recognition in portuguese medical documents pt
dc.typeTrabalho de conclusão de graduaçãopt_BR
dc.contributor.advisor-coNunes, Rafael Olequespt_BR
dc.identifier.nrb001290978pt_BR
dc.degree.grantorUniversidade Federal do Rio Grande do Sulpt_BR
dc.degree.departmentInstituto de Informáticapt_BR
dc.degree.localPorto Alegre, BR-RSpt_BR
dc.degree.date2025pt_BR
dc.degree.graduationCiência da Computação: Ênfase em Ciência da Computação: Bachareladopt_BR
dc.degree.levelgraduaçãopt_BR


Thumbnail
   

Este item está licenciado na Creative Commons License

Mostrar registro simples