Mostrar registro simples

dc.contributor.advisorRecamonde-Mendoza, Marianapt_BR
dc.contributor.authorFontanari, Thomas Vaitsespt_BR
dc.date.accessioned2024-02-17T04:55:25Zpt_BR
dc.date.issued2023pt_BR
dc.identifier.urihttp://hdl.handle.net/10183/272037pt_BR
dc.description.abstractNew sequencing technologies have lead to a massive generation of gene expression data, enabling the analysis and modeling of the genomic aspects of critical diseases, such as cancers. In this context, machine learning (ML) models are of fundamental importance, as they can help physicians in clinical settings and also in the identification of biologi cal markers than can lead to the discovery of new therapies. However, it is difficult to model gene expression data due to the general lack of samples of rarer diseases. This has prompted the proposal of various ML models that can work with genomic data and, in particular, to model cancer samples. Among these, different neural network architec tures have been developed, and a few recent works have proposed the use of graph neural networks (GNNs) to embed prior biological knowledge into the models. In general, how ever, these works have not presented any exploration of the pooling operation, which is a significant aspect of graph-level classification with GNNs. Therefore, a major part of this dissertation is devoted to analyzing how pooling and clustering an input biological network impacts the performance of the GNNs in the context of cancer genomics classi fication tasks. Among our results, we found that multiple coarsening levels of the graph has a general negative impact in the performance, but that this can be partially circum vented when weighted pooling and graph convolutions are used. We also show that these models lead to significant genes when they are interpreted using gradient-based methods, many of which have been previously studied in the context of cancers and cancer ther apies. Furthermore, we also interpreted the models at the coarser levels of the graphs generated through the pooling operations, and found that the related clusters of genes were often over-represented in biological processes associated with cancer. As a byprod uct of our experiments, we observed that the pan-cancer models achieved a high perfor mance in comparison with cancer-specific ones. Because of that, we also explored in this work how the introduction of samples from different cohorts could improve the results on cohort-specific tasks, focusing only on traditional neural networks, as baseline in this domain. Our results indicated that the use of out-of-cohort samples reduces the variance of the cohort-specific models, improving their performance, and is most beneficial when the dataset is small and class-imbalanced. Finally, we also show that it is possible to have good performance on cohort-specific tasks on cohorts that were not seeing during training.en
dc.description.abstractNovas tecnologias de sequenciamento levaram à geração massiva de dados de expressão gênica, possibilitando a análise e modelagem dos aspectos genômicos de doenças críticas, como o câncer. Nesse contexto, modelos de aprendizado de máquina (AM) são de fundamental importância, pois podem auxiliar médicos em ambientes clínicos e também na identificação de marcadores biológicos que podem levar à descoberta de novas terapias. No entanto, a alta dimensionalidade e não-linearidade desses dados, aliada à baixa disponibilidade de exemplos, especialmente para tipos mais raros de cânceres, dificulta a sua análise. Esses fatores levaram a propostas de vários modelos de AM que poderiam trabalhar com dados de genômicos de câncer. Dentre esses, diferentes arquiteturas de re des neurais foram desenvolvidas, e alguns trabalhos recentes propuseram o uso de redes neurais de grafo (GNN) para incorporar redes biológicas prévias aos modelos. De forma geral, no entanto, esses trabalhos não exploraram de maneira mais aprofundada a etapa de pooling, fundamental na classificação no nível do grafo quando são usadas as GNNs. Assim, uma parte importante dessa dissertação é dedicada a analisar como o pooling, ba seado no agrupamento hierárquico dos nodos da rede biológica de entrada, impacta no desempenho das GNNs nas tarefas de classificação com dados genômicos de câncer. Entre nossos resultados, descobrimos que múltiplos níveis de agrupamento do grafo têm um impacto geral negativo no desempenho, mas que isso pode ser parcialmente contornado quando o pooling com pesos e as convoluções de grafo são usadas. Mostramos também que esses modelos levam a genes significativos quando são interpretados usando métodos baseados em gradientes, muitos dos quais foram estudados anteriormente no contexto de cânceres e terapias contra o câncer. Além disso, interpretamos os modelos nos níveis de menor resolução dos grafos, gerados por meio das operações de agrupamento, e desco brimos que os supernodos, relacionados aos agrupamentos de genes no grafo de entrada, estão frequentemente super-representados em processos biológicos associados a câncer. Como subproduto de nossos experimentos, observamos que os modelos pan-câncer alcançaram alto desempenho em comparação com os específicos para o câncer. Por causa disso, também exploramos neste trabalho como a inclusão de amostras de diferentes tipos de cânceres poderia melhorar os resultados em tarefas de classificação para grupos específicos, focando apenas nas redes neurais tradicionais. Nossos resultados indicaram que a inclusão de amostras de outros tipos de cäncer reduz a variância dos modelos, melhorando seu desempenho, e é mais benéfica quando o conjunto de dados é pequeno e desequilibrado. Finalmente, também mostramos que é possível obter um bom desempenho em tarefas com dados de tipos de câncer que não foram observados no treinamento.pt_BR
dc.format.mimetypeapplication/pdfpt_BR
dc.language.isoengpt_BR
dc.rightsOpen Accessen
dc.subjectGenômica do câncerpt_BR
dc.subjectCancer genomicsen
dc.subjectGNNen
dc.subjectRedes neuraispt_BR
dc.subjectAprendizado de máquinapt_BR
dc.subjectPoolingen
dc.subjectInterpretabiliyen
dc.subjectFew-shot learningen
dc.titleInvestigating pooling in graph neural networks for cancer genomics classification and the generalizability of pan-cancer models to cancer-specific predictionspt_BR
dc.title.alternativePooling em redes neurais em grafos para classificação em genônimca do câncer e generalização de modelos pan-cancer para tipos específicos pt
dc.typeDissertaçãopt_BR
dc.identifier.nrb001196150pt_BR
dc.degree.grantorUniversidade Federal do Rio Grande do Sulpt_BR
dc.degree.departmentInstituto de Informáticapt_BR
dc.degree.programPrograma de Pós-Graduação em Computaçãopt_BR
dc.degree.localPorto Alegre, BR-RSpt_BR
dc.degree.date2023pt_BR
dc.degree.levelmestradopt_BR


Thumbnail
   

Este item está licenciado na Creative Commons License

Mostrar registro simples