Um simulador da rede do supercomputador frontier utilizando SimGrid
Visualizar/abrir
Data
2025Orientador
Nível acadêmico
Graduação
Outro título
A network simulator of the frontier supercomputer using SimGrid
Assunto
Resumo
Conforme progredimos cientificamente como sociedade, a necessidade de sistemas de alto desempenho torna-se cada vez mais evidente. Em maio de 2022, pela primeira vez na história, um supercomputador, o Frontier, desenvolvido pelo Oak Ridge National Laboratory, ultrapassou a marca de um Exaflop, isto é, um quintilhão de operações de ponto flutuante por segundo. Sistemas dessa magnitude são complexos e caros, o que dificulta o enfrentamento dos desafios relacionados a tolerância a falhas, desempen ...
Conforme progredimos cientificamente como sociedade, a necessidade de sistemas de alto desempenho torna-se cada vez mais evidente. Em maio de 2022, pela primeira vez na história, um supercomputador, o Frontier, desenvolvido pelo Oak Ridge National Laboratory, ultrapassou a marca de um Exaflop, isto é, um quintilhão de operações de ponto flutuante por segundo. Sistemas dessa magnitude são complexos e caros, o que dificulta o enfrentamento dos desafios relacionados a tolerância a falhas, desempenho e escalabilidade nesses ambientes. Uma possível abordagem para mitigar esses desafios é a utilização de simuladores, a fim de mimicar o comportamento desses sistemas em um ambiente virtual com o objetivo de prever possíveis pontos de falha e congestionamentos. Atualmente, já existe um esforço significativo na criação de gêmeos digitais, representações virtuais de um sistema que interagem dinamicamente com o sistema real, do supercomputador Frontier. No entanto, o gêmeo digital referente a rede do sistema é limitado quanto a escabilidade, não refletindo com precisão o comportamento real do Frontier devido à distribuição de carga de trabalho inapropriada da plataforma escolhida. Para enfrentar essa problemática, temos o SimGrid, que é um framework de simula- ção amplamente reconhecido e utilizado na comunidade científica para modelar e simular sistemas distribuídos e de alto desempenho, próprio para a modelagem de topologias de rede complexas. O objetivo desse trabalho é desenvolver um simulador da topologia de rede do supercomputador Frontier utilizando o framework de simulação SimGrid. Com a criação desse simulador, pretende-se facilitar a análise do comportamento de sua rede, permitindo a realização de experimentos e testes que contribuam para a otimização do desempenho e da confiabilidade do sistema, além de servir como um alicerce para o desenvolvimento futuro de um gêmeo digital da rede deste sistema. O desenvolvimento da modelagem se deu através da interface S4U do SimGrid que permite descrever plataformas através da linguagem de programação C++. Depois, foram realizados testes a partir de aplicações de proxy para avaliar o desempenho e corretude da rede modelada. Após a execução dos testes, os resultados obtidos foram analisados criticamente com intuito de encontrar possíveis melhorias na modelagem real. ...
Abstract
As we progress scientifically as a society, the need for high-performance systems becomes increasingly evident. In May 2022, for the first time in history, the Frontier supercomputer, developed by the Oak Ridge National Laboratory, surpassed the one Exaflop mark, in other words, one quintillion floating-point operations per second. Systems of this magnitude are complex and expensive, which makes addressing challenges related to fault tolerance, performance, and scalability difficult in such env ...
As we progress scientifically as a society, the need for high-performance systems becomes increasingly evident. In May 2022, for the first time in history, the Frontier supercomputer, developed by the Oak Ridge National Laboratory, surpassed the one Exaflop mark, in other words, one quintillion floating-point operations per second. Systems of this magnitude are complex and expensive, which makes addressing challenges related to fault tolerance, performance, and scalability difficult in such environments. A possible approach to mitigating these challenges is the use of simulators to mimic the behavior of these systems in a virtual environment in order to predict possible points of failure and bottlenecks. Currently, there is already a significant effort to create digital twins, virtual representations of a system that dynamically interact with the physical system, of the Frontier supercomputer. However, the respective digital twin related to the system’s network is limited and does not accurately reflect Frontier’s real behavior due to inadequate workload distribution on the chosen platform. To address this issue, we have SimGrid, a widely recognized and used simulation framework within the scientific community for modeling and simulating distributed and high-performance systems, suitable for modeling complex network topologies. The goal of this work is to develop a simulator of the Frontier supercomputer’s network topology using the SimGrid simulation framework. Through the creation of this simulator, we aim to facilitate the analysis of its network behavior, enabling experiments and tests that contribute to optimizing the performance and reliability of the system, besides serving as a foundation of the future development of a network digital twin of this system. The modeling was developed using SimGrid’s S4U interface, which allows platforms’ descriptions using the C++ programming language. Subsequently, tests based on proxy applications were carried out to evaluate the performance and correctness of the modeled network. Following the execution of these tests, the obtained results were critically analyzed to identify possible improvements in the real modeling. ...
Instituição
Universidade Federal do Rio Grande do Sul. Instituto de Informática. Curso de Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado.
Coleções
-
TCC Ciência da Computação (1166)
Este item está licenciado na Creative Commons License


