Mostrar registro simples

dc.contributor.advisorAzambuja, José Rodrigo Furlanetto dept_BR
dc.contributor.authorGonçalves, Marcio Macedopt_BR
dc.date.accessioned2024-08-03T06:32:17Zpt_BR
dc.date.issued2024pt_BR
dc.identifier.urihttp://hdl.handle.net/10183/276918pt_BR
dc.description.abstractGraphic Processing Units (GPUs) have emerged as powerful computational tools, enabling high-performance parallel processing and driving significant advancements in various domains. However, their integration into safety-critical applications raises concerns regarding their reliability, particularly in the context of Single-Event Upsets (SEUs) caused by radiation-induced faults. This Thesis aims to evaluate GPU reliability under such conditions and develop SEU mitigation techniques. We employed low-level software techniques and hardware experiments, including hybrid approaches combining software flexibility with hardware efficiency, and focused on selectively hardening critical components against radiation-induced faults. Our research began with commercial GPUs, applying selective hardening combined with Approximate Computing to Nvidia’s Kepler architecture to enhance fault tolerance. We then shifted to FlexGrip, a softcore GPU for Field-Programmable Gate Arrays (FPGAs), where we explored software-based fault tolerance techniques for SEU detection in configurable architectures. This included novel technique optimizations and comprehensive ISA extensions to improve resilience against SDC and DUE effects. Our study also involved FGPU, another softcore GPU, assessing reliability through comparisons of software-emulated and hardware-based Floating Point implementations, and the effectiveness of selective Triple Modular Redundancy (TMR). Finally, we explored the potential of Application-Specific Integrated Circuits (ASIC) derived from softcore GPUs, utilizing GPUPlanner to facilitate the transition from RTL designs to ASIC layouts. This research highlights the potential of softcore GPUs as ASIC accelerators for high parallelism applications and marks a significant advancement in the development of reliable, fault-tolerant GPU architectures. Our comprehensive evaluation across commercial and softcore GPUs, and the transition to ASICs, sets the groundwork for more robust GPU integration in safety-critical domains and contributes to the advancement of reliable, high-performance computing solutions for a wide range of critical applications.en
dc.description.abstractGPUs emergiram como poderosas ferramentas computacionais, possibilitando processamento paralelo de alto desempenho e impulsionando avanços significativos em diversos domínios. No entanto, sua integração em aplicações que requerem alto grau de confiabilidade suscita preocupações sobre a sua confiabilidade, particularmente no contexto de SEUs causados por falhas induzidas por radiação. Esta tese visa avaliar a confiabilidade das GPUs sob tais condições e desenvolver técnicas de mitigação de SEUs. Empregamos técnicas de software de baixo nível e experimentos de hardware, incluindo abordagens híbridas que combinam a flexibilidade do software com a eficiência do hardware, focando na proteção seletiva de componentes críticos contra falhas induzidas por radiação. Nossa pesquisa começou com GPUs comerciais, aplicando proteção seletiva combinada com Computação Aproximada à arquitetura Kepler da Nvidia para aumentar a tolerância a falhas. Em seguida, mudamos para FlexGrip, uma GPU softcore desenvolvida para FPGAs, onde exploramos técnicas de tolerância a falhas baseadas em software para detecção de SEUs em arquiteturas configuráveis. Isso incluiu a implementação de otimizações de técnicas do estado-da-arte e extensões de ISA para melhorar a resiliência contra efeitos SDC e DUE. Nosso estudo também envolveu FGPU, outra GPU softcore, avaliando a confiabilidade por meio de comparações entre implementações de Ponto Flutuante emuladas por software e baseadas em hardware, e a eficácia da técnica TMR implementada de forma seletiva. Por fim, exploramos o potencial de ASICs derivados de GPUs softcore, utilizando GPUPlanner para facilitar a transição de designs RTL para layouts de ASIC. Esta pesquisa destaca o potencial das GPUs softcore como aceleradores ASIC para aplicações de alto paralelismo e marca um avanço significativo no desenvolvimento de arquiteturas de GPU tolerantes a falhas. Nossa avaliação abrangente, desde GPUs comerciais até softcore, e a transição para ASICs, estabelece as bases para uma integração mais robusta de GPUs em domínios críticos à segurança e contribui para o avanço de soluções de computação de alto desempenho e confiáveis para uma ampla gama de aplicações críticas.pt_BR
dc.format.mimetypeapplication/pdfpt_BR
dc.language.isoengpt_BR
dc.rightsOpen Accessen
dc.subjectUnidades de processamento gráficopt_BR
dc.subjectGPU reliabilityen
dc.subjectTolerância a falhaspt_BR
dc.subjectSingle event upsetsen
dc.subjectSafety-critical applicationsen
dc.subjectProcessamento paralelopt_BR
dc.subjectConfiabilidade : Computadorespt_BR
dc.subjectComputação aproximativapt_BR
dc.subjectFpgapt_BR
dc.subjectArquitetura de hardwarept_BR
dc.titleTowards resilient graphics processing units : designing fault tolerance techniques for radiation-induced faultspt_BR
dc.typeTesept_BR
dc.identifier.nrb001207651pt_BR
dc.degree.grantorUniversidade Federal do Rio Grande do Sulpt_BR
dc.degree.departmentInstituto de Informáticapt_BR
dc.degree.programPrograma de Pós-Graduação em Microeletrônicapt_BR
dc.degree.localPorto Alegre, BR-RSpt_BR
dc.degree.date2024pt_BR
dc.degree.leveldoutoradopt_BR


Thumbnail
   

Este item está licenciado na Creative Commons License

Mostrar registro simples