Análise de modelos de linguagem para extração de entidades nomeadas em documentos médicos em português

O reconhecimento de entidades nomeadas (NER) em textos clínicos é uma tarefa fundamental para aplicações em saúde digital, especialmente quando se trata de idiomas com menos recursos, como o português. Este trabalho investiga a aplicação de modelos de linguagem generativos decoder-only para tal tarefa. Três modelos foram avaliados, BioMistral-7B, Gemma-7B-IT e Mistral-7B-v2, por meio de oito estratégias de prompting, variando entre abordagens zero-shot, one-shot, few-shot e GT-shot, com e sem o uso de persona, testando com exemplos do corpus SemClinBr. Os resultados mostraram limitações significativas no desempenho dos modelos, com destaque para o BioMistral, que, apesar de ser o mais especializado na tarefa, apresentou desempenho inferior. Os modelos apresentaram os melhores resultados de micro-F1, principal métrica do trabalho, quando usado few-shot, obtendo valores de 10,63%, 13,18%, e 11,42%, respectivamente. Conclui-se que, para NER no português no domínio médico, ainda são necessários modelos mais adequados e há espaço de melhorias para esse cenário. ...

Abstract

Named Entity Recognition (NER) in clinical texts is a fundamental task for digital health applications, especially in low-resource languages such as Portuguese. This work inves tigates the application of decoder-only generative language models for this task. Three models were evaluated, BioMistral-7B, Gemma-7B-IT and Mistral-7B-v2, using eight prompting strategies, being them zero-shot, one-shot, few-shot, and GT-shot, with and without the use of a persona, testing with examples from the corpus SemClinBr. The results revealed significant limitations in model performance, particularly for BioMistral, which, despite being the most specialized for the task, performed worse. The models achieved their best micro-F1 scores, the main metric used in this study, with few-shot, having values of 10,63%, 13,18%, and 11,42%, respectively. It is concluded that for NER in Portuguese within the medical domain, more suitable models are still needed and there is room for improvement in this area. ...

Instituição

Universidade Federal do Rio Grande do Sul. Instituto de Informática. Curso de Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado.

Coleções

Trabalhos de Conclusão de Curso de Graduação (40346)

TCC Ciência da Computação (1128)

Outras opções

Mostrar todos os metadados

Estatísticas

Este item está licenciado na Creative Commons License