Análise de modelos de linguagem para extração de entidades nomeadas em documentos médicos em português
| dc.contributor.advisor | Balreira, Dennis Giovani | pt_BR |
| dc.contributor.author | Braun, Joao Pedro Kuhn | pt_BR |
| dc.date.accessioned | 2025-08-09T08:02:37Z | pt_BR |
| dc.date.issued | 2025 | pt_BR |
| dc.identifier.uri | http://hdl.handle.net/10183/294925 | pt_BR |
| dc.description.abstract | O reconhecimento de entidades nomeadas (NER) em textos clínicos é uma tarefa fundamental para aplicações em saúde digital, especialmente quando se trata de idiomas com menos recursos, como o português. Este trabalho investiga a aplicação de modelos de linguagem generativos decoder-only para tal tarefa. Três modelos foram avaliados, BioMistral-7B, Gemma-7B-IT e Mistral-7B-v2, por meio de oito estratégias de prompting, variando entre abordagens zero-shot, one-shot, few-shot e GT-shot, com e sem o uso de persona, testando com exemplos do corpus SemClinBr. Os resultados mostraram limitações significativas no desempenho dos modelos, com destaque para o BioMistral, que, apesar de ser o mais especializado na tarefa, apresentou desempenho inferior. Os modelos apresentaram os melhores resultados de micro-F1, principal métrica do trabalho, quando usado few-shot, obtendo valores de 10,63%, 13,18%, e 11,42%, respectivamente. Conclui-se que, para NER no português no domínio médico, ainda são necessários modelos mais adequados e há espaço de melhorias para esse cenário. | pt_BR |
| dc.description.abstract | Named Entity Recognition (NER) in clinical texts is a fundamental task for digital health applications, especially in low-resource languages such as Portuguese. This work inves tigates the application of decoder-only generative language models for this task. Three models were evaluated, BioMistral-7B, Gemma-7B-IT and Mistral-7B-v2, using eight prompting strategies, being them zero-shot, one-shot, few-shot, and GT-shot, with and without the use of a persona, testing with examples from the corpus SemClinBr. The results revealed significant limitations in model performance, particularly for BioMistral, which, despite being the most specialized for the task, performed worse. The models achieved their best micro-F1 scores, the main metric used in this study, with few-shot, having values of 10,63%, 13,18%, and 11,42%, respectively. It is concluded that for NER in Portuguese within the medical domain, more suitable models are still needed and there is room for improvement in this area. | en |
| dc.format.mimetype | application/pdf | pt_BR |
| dc.language.iso | por | pt_BR |
| dc.rights | Open Access | en |
| dc.subject | Reconhecimento de entidade nomeada | pt_BR |
| dc.subject | Modelos de linguagem generativos | pt_BR |
| dc.subject | Textos clínicos em português | pt_BR |
| dc.subject | Processamento de linguagem natural | pt_BR |
| dc.title | Análise de modelos de linguagem para extração de entidades nomeadas em documentos médicos em português | pt_BR |
| dc.title.alternative | Analysis of language models for named entity recognition in portuguese medical documents | pt |
| dc.type | Trabalho de conclusão de graduação | pt_BR |
| dc.contributor.advisor-co | Nunes, Rafael Oleques | pt_BR |
| dc.identifier.nrb | 001290978 | pt_BR |
| dc.degree.grantor | Universidade Federal do Rio Grande do Sul | pt_BR |
| dc.degree.department | Instituto de Informática | pt_BR |
| dc.degree.local | Porto Alegre, BR-RS | pt_BR |
| dc.degree.date | 2025 | pt_BR |
| dc.degree.graduation | Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado | pt_BR |
| dc.degree.level | graduação | pt_BR |
Este item está licenciado na Creative Commons License
-
TCC Ciência da Computação (1128)

