Análise de modelos de linguagem para extração de entidades nomeadas em documentos médicos em português
Visualizar/abrir
Data
2025Autor
Orientador
Co-orientador
Nível acadêmico
Graduação
Outro título
Analysis of language models for named entity recognition in portuguese medical documents
Assunto
Resumo
O reconhecimento de entidades nomeadas (NER) em textos clínicos é uma tarefa fundamental para aplicações em saúde digital, especialmente quando se trata de idiomas com menos recursos, como o português. Este trabalho investiga a aplicação de modelos de linguagem generativos decoder-only para tal tarefa. Três modelos foram avaliados, BioMistral-7B, Gemma-7B-IT e Mistral-7B-v2, por meio de oito estratégias de prompting, variando entre abordagens zero-shot, one-shot, few-shot e GT-shot, com e sem o ...
O reconhecimento de entidades nomeadas (NER) em textos clínicos é uma tarefa fundamental para aplicações em saúde digital, especialmente quando se trata de idiomas com menos recursos, como o português. Este trabalho investiga a aplicação de modelos de linguagem generativos decoder-only para tal tarefa. Três modelos foram avaliados, BioMistral-7B, Gemma-7B-IT e Mistral-7B-v2, por meio de oito estratégias de prompting, variando entre abordagens zero-shot, one-shot, few-shot e GT-shot, com e sem o uso de persona, testando com exemplos do corpus SemClinBr. Os resultados mostraram limitações significativas no desempenho dos modelos, com destaque para o BioMistral, que, apesar de ser o mais especializado na tarefa, apresentou desempenho inferior. Os modelos apresentaram os melhores resultados de micro-F1, principal métrica do trabalho, quando usado few-shot, obtendo valores de 10,63%, 13,18%, e 11,42%, respectivamente. Conclui-se que, para NER no português no domínio médico, ainda são necessários modelos mais adequados e há espaço de melhorias para esse cenário. ...
Abstract
Named Entity Recognition (NER) in clinical texts is a fundamental task for digital health applications, especially in low-resource languages such as Portuguese. This work inves tigates the application of decoder-only generative language models for this task. Three models were evaluated, BioMistral-7B, Gemma-7B-IT and Mistral-7B-v2, using eight prompting strategies, being them zero-shot, one-shot, few-shot, and GT-shot, with and without the use of a persona, testing with examples from the corpus ...
Named Entity Recognition (NER) in clinical texts is a fundamental task for digital health applications, especially in low-resource languages such as Portuguese. This work inves tigates the application of decoder-only generative language models for this task. Three models were evaluated, BioMistral-7B, Gemma-7B-IT and Mistral-7B-v2, using eight prompting strategies, being them zero-shot, one-shot, few-shot, and GT-shot, with and without the use of a persona, testing with examples from the corpus SemClinBr. The results revealed significant limitations in model performance, particularly for BioMistral, which, despite being the most specialized for the task, performed worse. The models achieved their best micro-F1 scores, the main metric used in this study, with few-shot, having values of 10,63%, 13,18%, and 11,42%, respectively. It is concluded that for NER in Portuguese within the medical domain, more suitable models are still needed and there is room for improvement in this area. ...
Instituição
Universidade Federal do Rio Grande do Sul. Instituto de Informática. Curso de Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado.
Coleções
-
TCC Ciência da Computação (1128)
Este item está licenciado na Creative Commons License


