Mostrar registro simples

dc.contributor.advisorAzambuja, José Rodrigo Furlanetto dept_BR
dc.contributor.authorBraga, Giani Augustopt_BR
dc.date.accessioned2024-02-01T05:07:04Zpt_BR
dc.date.issued2023pt_BR
dc.identifier.urihttp://hdl.handle.net/10183/271293pt_BR
dc.description.abstractA utilização de Processadores Gráficos (Graphics Processing Unit - GPU) na computação gráfica, em aceleradores de uso geral e Computação de Alto Desempenho (High Processing Computing - HPC), recentemente tiveram um crescimento e passaram a ser utilizados em diversas aplicações críticas de segurança, por exemplo em veículos autônomos e avi- ônica. Embora, as mais recentes tecnologias são utilizadas na fabricação das GPUs para satisfazer os requisitos de consumo de energia e desempenho, ainda são sensíveis e suscetíveis a falhas em algumas áreas, dentre elas a aviônica, por possuir um alto grau de exposição a partículas energizadas, como prótons e nêutrons. Os principais efeitos causados por essas partículas energizadas, em circuitos de alta densidade, são conhecidos como Perturbações de Evento Único (Single Event Upset - SEU). Apesar do SEU não resultar na destruição dos circuitos, ele tem o potencial de introduzir erros no armazenamento de dados, afetando principalmente memórias e registradores. Para proteger as GPUs contra esses efeitos, os engenheiros empregam técnicas de tolerância a falhas, que podem ser desenvolvidas por meio de abordagens que combinam o suporte de software e hardware. O objetivo dessa dissertação foi aprimorar a resiliência dos registradores de pipeline em uma arquitetura de GPU. Para isso, foram desenvolvidas duas técnicas híbridas de tolerância a falhas, baseadas em trabalhos relacionados. A primeira técnica é a híbrida XOR e a segunda técnica é a híbrida paridade, que comparam e detectam, por meio de um bit de confiabilidade, se a instrução duplicada está com erro, caso estiver é realizado a correção. Abordagens anteriores concentraram-se em proteger elementos de memória, como arquivos de registradores e memória compartilhada, priorizando proteção por software. Já a proteção dos registradores de pipeline demanda alterações no hardware, tornando essencial o desenvolvimento de técnicas híbridas. A análise das técnicas desenvolvidas foram realizadas por meio de simulação da injeção de milhares de falhas no pipeline da GPU, em até seis aplicações de estudo de caso. Os resultados em termos de overhead do tempo de execução variam de 1,04x a 1,66x e uma detecção e correção de erros de 100% para as quatro aplicações de estudo de caso da técnica híbrida XOR. Para a técnica híbrida paridade, teve um aumento entre 2% e 15% no overhead do tempo de execução, além da redução e correção de em média 47% dos erros.pt_BR
dc.description.abstractThe use of Graphics Processors (GPU) in graphics computing, in general purpose accelerators and High Performance Computing (HPC), has recently grown and become used in several safety-critical applications, for example in autonomous vehicles and avionics. Although the latest technologies are used in the manufacture of GPUs to satisfy energy consumption and performance requirements, they are still sensitive and susceptible to failures in some areas, including avionics, due to a high degree of exposure to energized particles, such as protons and neutrons. The main effects caused by these energized particles, in high-density circuits, are known as Single Event Upset (SEU). Although SEU does not result in the destruction of circuits, it has the potential to introduce errors into data storage, mainly affecting memories and registers. To protect GPUs against these effects, engineers employ fault tolerance techniques, which can be developed through approaches that combine software and hardware support. The objective of this dissertation was to improve the resilience of pipeline registers in a GPU architecture. To this end, two hybrid fault tolerance techniques were developed, based on related work. The first technique is hybrid XOR and the second technique is hybrid parity, which compare and detect, through a reliability bit, whether the duplicate instruction has an error, and if so, correction is performed. Previous approaches have focused on protecting memory elements such as register files and shared memory, prioritizing software protection. Protecting pipeline registers requires changes to the hardware, making the development of hybrid techniques essential. The analysis of the developed techniques was carried out through simulation of the injection of thousands of faults into the GPU pipeline, in up to six case study applications. The results in terms of runtime overhead range from 1.04x to 1.66x and a 100% error detection and correction for the four case study applications of the hybrid XOR technique. For the hybrid parity technique, there was an increase between 2% and 15% in overhead execution time, in addition to the reduction and correction of an average of 47% of errors.en
dc.format.mimetypeapplication/pdfpt_BR
dc.language.isoporpt_BR
dc.rightsOpen Accessen
dc.subjectTolerância a falhaspt_BR
dc.subjectSelective mitigation techniquesen
dc.subjectUnidades de processamento gráficopt_BR
dc.subjectProcessadores graficospt_BR
dc.subjectComputação de alto desempenhopt_BR
dc.titleTécnicas de tolerância a falhas controladas por software para a proteção do pipeline de processadores gráficospt_BR
dc.title.alternativeSoftware-controlled fault tolerance techniques for hardening the pipelines of graphics processor units en
dc.typeDissertaçãopt_BR
dc.identifier.nrb001194276pt_BR
dc.degree.grantorUniversidade Federal do Rio Grande do Sulpt_BR
dc.degree.departmentInstituto de Informáticapt_BR
dc.degree.programPrograma de Pós-Graduação em Computaçãopt_BR
dc.degree.localPorto Alegre, BR-RSpt_BR
dc.degree.date2021pt_BR
dc.degree.levelmestradopt_BR


Thumbnail
   

Este item está licenciado na Creative Commons License

Mostrar registro simples