Inferência da relevância de genes em classes de câncer usando LLMs aumentados por recuperação de evidência biomédica
| dc.contributor.advisor | Grisci, Bruno Iochins | pt_BR |
| dc.contributor.author | Ferreira, Wagner Gomes | pt_BR |
| dc.date.accessioned | 2026-01-30T08:03:03Z | pt_BR |
| dc.date.issued | 2025 | pt_BR |
| dc.identifier.uri | http://hdl.handle.net/10183/300944 | pt_BR |
| dc.description.abstract | A interpretação biológica de genes associados ao câncer é desafiadora devido à complexidade molecular e à necessidade de integrar dados genômicos, literatura científica e conhecimento biomédico estruturado. Neste trabalho, foi investigado o uso de Grandes Modelos de Linguagem (LLMs) combinados com recuperação automática de evidências biomédicas para inferir a classe tumoral mais associada a cada gene. A metodologia envolveu a seleção de genes a partir de dados de microarranjo, a busca de subtipos tumorais por meio da ontologia MONDO e a recuperação de artigos relevantes no PubMed. Os resumos dos artigos foram utilizados como contexto para os LLMs realizarem as classificações. Os resultados indicam que, embora os modelos apresentem potencial como ferramenta auxiliar, LLMs genéricos tendem a superestimar associações gene–câncer, evidenciando limitações relacionadas à falta de especialização biomédica e apontando a necessidade de abordagens mais específicas para esse domínio. | pt_BR |
| dc.description.abstract | The biological interpretation of cancer-associated genes is challenging due to molecular complexity and the need to integrate genomic data, scientific literature, and structured biomedical knowledge. This work investigated the use of Large Language Models (LLMs) combined with automatic retrieval of biomedical evidence to infer the tumor class most associated with each gene. The methodology involved selecting genes from microarray data, searching for tumor subtypes using the MONDO ontology, and retrieving relevant articles from PubMed. Article abstracts were used as context for the LLMs to perform the classifications. The results indicate that, although the models show potential as an auxiliary tool, generic LLMs tend to overestimate gene-cancer associations, highlighting limitations related to a lack of biomedical specialization and pointing to the need for more specific approaches in this domain. | en |
| dc.format.mimetype | application/pdf | pt_BR |
| dc.language.iso | por | pt_BR |
| dc.rights | Open Access | en |
| dc.subject | Bioinformática | pt_BR |
| dc.subject | Microarray | en |
| dc.subject | Feature selection | en |
| dc.subject | Modelos de linguagem de grande escala | pt_BR |
| dc.subject | Aprendizado de máquina | pt_BR |
| dc.subject | Gene selection | en |
| dc.subject | Ontologias | pt_BR |
| dc.subject | Geração aumentada por recuperação | pt_BR |
| dc.title | Inferência da relevância de genes em classes de câncer usando LLMs aumentados por recuperação de evidência biomédica | pt_BR |
| dc.title.alternative | Inferring the relevance of genes in cancer classes using LLMs enhanced by biomedical evidence retrieval | en |
| dc.type | Trabalho de conclusão de graduação | pt_BR |
| dc.contributor.advisor-co | Feltes, Bruno César | pt_BR |
| dc.identifier.nrb | 001300529 | pt_BR |
| dc.degree.grantor | Universidade Federal do Rio Grande do Sul | pt_BR |
| dc.degree.department | Instituto de Informática | pt_BR |
| dc.degree.local | Porto Alegre, BR-RS | pt_BR |
| dc.degree.date | 2025 | pt_BR |
| dc.degree.graduation | Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado | pt_BR |
| dc.degree.level | graduação | pt_BR |
Este item está licenciado na Creative Commons License
-
TCC Ciência da Computação (1166)

