Inferência da relevância de genes em classes de câncer usando LLMs aumentados por recuperação de evidência biomédica
Visualizar/abrir
Data
2025Autor
Orientador
Co-orientador
Nível acadêmico
Graduação
Outro título
Inferring the relevance of genes in cancer classes using LLMs enhanced by biomedical evidence retrieval
Assunto
Resumo
A interpretação biológica de genes associados ao câncer é desafiadora devido à complexidade molecular e à necessidade de integrar dados genômicos, literatura científica e conhecimento biomédico estruturado. Neste trabalho, foi investigado o uso de Grandes Modelos de Linguagem (LLMs) combinados com recuperação automática de evidências biomédicas para inferir a classe tumoral mais associada a cada gene. A metodologia envolveu a seleção de genes a partir de dados de microarranjo, a busca de subtip ...
A interpretação biológica de genes associados ao câncer é desafiadora devido à complexidade molecular e à necessidade de integrar dados genômicos, literatura científica e conhecimento biomédico estruturado. Neste trabalho, foi investigado o uso de Grandes Modelos de Linguagem (LLMs) combinados com recuperação automática de evidências biomédicas para inferir a classe tumoral mais associada a cada gene. A metodologia envolveu a seleção de genes a partir de dados de microarranjo, a busca de subtipos tumorais por meio da ontologia MONDO e a recuperação de artigos relevantes no PubMed. Os resumos dos artigos foram utilizados como contexto para os LLMs realizarem as classificações. Os resultados indicam que, embora os modelos apresentem potencial como ferramenta auxiliar, LLMs genéricos tendem a superestimar associações gene–câncer, evidenciando limitações relacionadas à falta de especialização biomédica e apontando a necessidade de abordagens mais específicas para esse domínio. ...
Abstract
The biological interpretation of cancer-associated genes is challenging due to molecular complexity and the need to integrate genomic data, scientific literature, and structured biomedical knowledge. This work investigated the use of Large Language Models (LLMs) combined with automatic retrieval of biomedical evidence to infer the tumor class most associated with each gene. The methodology involved selecting genes from microarray data, searching for tumor subtypes using the MONDO ontology, and ...
The biological interpretation of cancer-associated genes is challenging due to molecular complexity and the need to integrate genomic data, scientific literature, and structured biomedical knowledge. This work investigated the use of Large Language Models (LLMs) combined with automatic retrieval of biomedical evidence to infer the tumor class most associated with each gene. The methodology involved selecting genes from microarray data, searching for tumor subtypes using the MONDO ontology, and retrieving relevant articles from PubMed. Article abstracts were used as context for the LLMs to perform the classifications. The results indicate that, although the models show potential as an auxiliary tool, generic LLMs tend to overestimate gene-cancer associations, highlighting limitations related to a lack of biomedical specialization and pointing to the need for more specific approaches in this domain. ...
Instituição
Universidade Federal do Rio Grande do Sul. Instituto de Informática. Curso de Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado.
Coleções
-
TCC Ciência da Computação (1166)
Este item está licenciado na Creative Commons License


