Revealing network communities : the surpriser algorithm and its application on metabolic network analysis

Pellizzaro, José Antônio

dc.contributor.advisor	Gamermann, Daniel	pt_BR
dc.contributor.author	Pellizzaro, José Antônio	pt_BR
dc.date.accessioned	2025-06-12T06:55:34Z	pt_BR
dc.date.issued	2025	pt_BR
dc.identifier.uri	http://hdl.handle.net/10183/292814	pt_BR
dc.description.abstract	The success of network science to describe many complex systems and their ubiquitous presence has brought the development of new, more efficient, methods of analysis to the spotlight. However, some problems still remain open, one of which—the focus of our work—is the determination of a network’s community structure. Even though there’s no consensual formal definition, communities arise from the intuitive idea that nodes form subgroups in larger networks. In this regard, various algorithms have been proposed to identify such groups. The first part of our work is dedicated to the community detection problem. We introduce a novel algorithm, Surpriser, based on the maximization of the Surprise function, along with a new benchmark for comparing competing algorithms. We tested our Surpriser algorithm against seven other methods from the literature using three different benchmarks: LFR, RC, and our benchmark. Our results demonstrate that among the methods with good resolution, Surpriser performs the best. Conversely, algorithms with poor resolution, such as Modularity-based methods, tend to return communities with similar sizes. Regarding the different benchmarks, we found that LFR produces networks with a strong subcommunity structure. In the latter part of our work, our focus shifted to practical applications of the Surpriser algorithm. We generated and examined metabolic networks for 10,463 different organisms spanning the three domains of life: bacteria, archaea, and eukarya. Our analysis revealed that the community structure of these metabolic networks consists of numerous small communities that are mostly evenly-sized. Moreover, we show that the metabolic network’s community structure arises from evolutionary pressures distinct from those influencing the network’s degree distribution. Finally, we used the attributes from the metabolic networks as features for a model of taxonomic classification. The neural network we trained achieved an accuracy of 98% in classifying organisms into bacteria, archaea, and eukaryotes at the domain level.	en
dc.description.abstract	O sucesso da teoria dos grafos para descrever sistemas complexos, bem como a onipresença destes, deu muito destaque à elaboração de métodos eficientes para sua análise. No entanto, várias questões continuam em aberto. Uma delas, à qual nos dedicamos neste trabalho, é a obtenção das comunidades presentes nessas redes. Muito embora não exista um consenso formal sobre sua definição, a presença de comunidades vem da ideia intuitiva de que os nós (ou nodos) formam subgrupos dentro da rede. Neste sentido, muitos algoritmos diferentes foram propostos para identificar tais grupos. A primeira parte deste trabalho é dedicada ao problema da detecção dessas comunidades. Apresentamos um novo algoritmo, o Surpriser, baseado na maximização da função Surprise, juntamente com um novo benchmark. Testamos o Surpriser em comparação com sete outros métodos da literatura, em três benchmarks diferentes: LFR, RC e o nosso próprio benchmark. Nossos resultados indicam que, entre os métodos com boa resolução, o Surpriser possui o melhor desempenho. Por outro lado, algoritmos com problemas de resolução, como os baseados na Modularidade, tendem a retornar comunidades com tamanhos semelhantes. Em relação aos benchmarks, nossos resultados mostram que o benchmark LFR produz redes com uma forte estrutura de subcomunidades. Na segunda parte deste trabalho, voltamos nosso foco para as aplicações práticas do algoritmo Surpriser. Criamos e examinamos as redes metabólicas de 10.463 organismos diferentes divididos nos três domínios da vida: bactérias, arqueias e eucariotos. Nossas análises revelaram que a estrutura de comunidades desses organismos é composta por muitas comunidades pequenas e de tamanho semelhante. Além disso, demonstramos que a estrutura de comunidades das redes metabólicas surge de pressões evolutivas distintas das que influenciam a distribuição de graus da rede. Finalmente, utilizamos os atributos dessas redes metabólicas como características para um modelo de classificação taxonômica. A rede neural que treinamos obteve uma precisão de 98% ao classificar os organismos em bactérias, arqueas e eucariotos, no nível de domínio.	pt_BR
dc.format.mimetype	application/pdf	pt_BR
dc.language.iso	eng	pt_BR
dc.rights	Open Access	en
dc.subject	Grafos	pt_BR
dc.subject	Graphs	en
dc.subject	Networks	en
dc.subject	Redes	pt_BR
dc.subject	Algorítmo	pt_BR
dc.subject	Community Detection	en
dc.subject	Benchmarks	en
dc.subject	Surprise	en
dc.subject	Metabolic Networks	en
dc.subject	Taxonomic Classification	en
dc.title	Revealing network communities : the surpriser algorithm and its application on metabolic network analysis	pt_BR
dc.type	Tese	pt_BR
dc.identifier.nrb	001266265	pt_BR
dc.degree.grantor	Universidade Federal do Rio Grande do Sul	pt_BR
dc.degree.department	Instituto de Física	pt_BR
dc.degree.program	Programa de Pós-Graduação em Física	pt_BR
dc.degree.local	Porto Alegre, BR-RS	pt_BR
dc.degree.date	2025	pt_BR
dc.degree.level	doutorado	pt_BR

Nome:: 001266265.pdf
Tamanho:: 12.14Mb
Formato:: PDF
Descrição:: Texto completo (inglês)

Visualizar/abrir

Este item está licenciado na Creative Commons License

Ciências Exatas e da Terra (5241)

Física (848)

Mostrar registro simples