Inferência da relevância de genes em classes de câncer usando LLMs aumentados por recuperação de evidência biomédica

A interpretação biológica de genes associados ao câncer é desafiadora devido à complexidade molecular e à necessidade de integrar dados genômicos, literatura científica e conhecimento biomédico estruturado. Neste trabalho, foi investigado o uso de Grandes Modelos de Linguagem (LLMs) combinados com recuperação automática de evidências biomédicas para inferir a classe tumoral mais associada a cada gene. A metodologia envolveu a seleção de genes a partir de dados de microarranjo, a busca de subtipos tumorais por meio da ontologia MONDO e a recuperação de artigos relevantes no PubMed. Os resumos dos artigos foram utilizados como contexto para os LLMs realizarem as classificações. Os resultados indicam que, embora os modelos apresentem potencial como ferramenta auxiliar, LLMs genéricos tendem a superestimar associações gene–câncer, evidenciando limitações relacionadas à falta de especialização biomédica e apontando a necessidade de abordagens mais específicas para esse domínio. ...

Abstract

The biological interpretation of cancer-associated genes is challenging due to molecular complexity and the need to integrate genomic data, scientific literature, and structured biomedical knowledge. This work investigated the use of Large Language Models (LLMs) combined with automatic retrieval of biomedical evidence to infer the tumor class most associated with each gene. The methodology involved selecting genes from microarray data, searching for tumor subtypes using the MONDO ontology, and retrieving relevant articles from PubMed. Article abstracts were used as context for the LLMs to perform the classifications. The results indicate that, although the models show potential as an auxiliary tool, generic LLMs tend to overestimate gene-cancer associations, highlighting limitations related to a lack of biomedical specialization and pointing to the need for more specific approaches in this domain. ...

Instituição

Universidade Federal do Rio Grande do Sul. Instituto de Informática. Curso de Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado.

Coleções

Trabalhos de Conclusão de Curso de Graduação (40989)

TCC Ciência da Computação (1166)

Outras opções

Mostrar todos os metadados

Estatísticas

Este item está licenciado na Creative Commons License