Reliability evaluation of low-power embedded devices under radiation

Ensuring reliability is a paramount concern across various industries, from consumer applications to highly specialized fields such as automotive, military, aerospace, and HighPerformance Computing (HPC). Arm CPU architectures, thanks to their efficiency and flexibility, have been widely adopted in portable user devices such as smartphones, tablets, and laptops. Microprocessors’ soft error reliability can be estimated pre-silicon using early design models (called performance or microarchitectural models) and post-silicon by accelerated beam testing on manufactured chips. This work compares microarchitectural fault injection with neutron beam experiments. When comparing these two reliability evaluation methods, it is reported that microarchitectural seems to predict the error rate on standalone devices accurately. On devices integrated into a system-on-chip (SoC) only the SDC error rate can be estimated accurately. Moreover, not only the estimation of the hardware’s reliability is critical but also the software running on it. With this in mind, another comparison with software fault injection is made. It is shown that in combination with hardware and software metrics, the estimation provided by the software fault injection can be in the same order of magnitude as the one reported with neutron beam experiments. With the increases in automation, there is not only a safety concern with the CPU but also with the application running over a respective device. Since the application used to run the automated tasks has become more complex, new software and hardware architectures have appeared on the market. In order to deal with the complexity of the task, the use of Deep Neural Networks (DNN) is visibly increasing. There are several types of DNNs, one which is most used is the Convolutional Neural Network (CNN). Several new concepts of neural networks have appeared such as ensemble learning, transformers, and reinforcement learning. Given the high computational power required by some DNNs, to meet real-time requirements (as needed in autonomous vehicles) it is necessary to execute DNNs on power-hungry Graphics Processing Units (GPUs). However, for some specific tasks in user applications, employing a high-power device would not be necessary or would even be unfeasible. This work advances knowledge about Google Tensor Processing Units (TPU) by investigating their sensitivity to neutrons and heavy ions on several types of DNN architectures. Moreover, the work done with CNN also investigates the impact of the temperature on the error rate of CNN running on the Coral TPU. Besides the typical CNN, other architectures and concepts are tested. The architecturesand strategies evaluated are ensemble learning, transformers, and reinforcement learning. Also, a new Dual-modular redundancy strategy for reinforcement learning is proposed where some of the errors are corrected using experimental data from radiation testing. ...

Resumo

Garantir a confiabilidade é uma preocupação primordial em vários setores, desde aplica- ções de consumo até campos altamente especializados, como automotivo, militar, aeroespacial e computação de alto desempenho (HPC). As arquiteturas de CPU Arm, graças à sua eficiência e flexibilidade, foram amplamente adotadas em dispositivos portáteis de usuários, como smartphones, tablets e laptops. A confiabilidade de erro suave dos microprocessadores pode ser estimada pré-silício usando modelos de design iniciais (chamados de modelos de desempenho ou microarquiteturais) e pós-silício por testes de feixe acelerado em chips fabricados. Este trabalho compara a injeção de falhas microarquitetônicas com experimentos de feixe de nêutrons. Ao comparar esses dois métodos de avaliação de confiabilidade, é relatado que a microarquitetura parece prever a taxa de erro em dispositivos autônomos com precisão. Em dispositivos integrados em um sistema em um chip (SoC), apenas a taxa de erro SDC pode ser estimada com precisão. Além disso, não apenas a estimativa da confiabilidade do hardware é crítica, mas também o software em execução nele. Com isso em mente, outra comparação com a injeção de falhas de software é feita. É mostrado que, em combinação com métricas de hardware e software, a estimativa fornecida pela injeção de falhas de software pode ser da mesma ordem de magnitude que a relatada com experimentos de feixe de nêutrons. Com o aumento da automação, não há apenas uma preocupação de segurança com a CPU, mas também com o aplicativo em execução em um respectivo dispositivo. Como o aplicativo usado para executar as tarefas automatizadas se tornou mais complexo, novas arquiteturas de software e hardware surgiram no mercado. Para lidar com a complexidade da tarefa, o uso de Redes Neurais Profundas (DNN) está aumentando visivelmente. Existem vários tipos de DNNs, um dos mais usados é a Rede Neural Convolucional (CNN). Vários novos conceitos de redes neurais surgiram, como aprendizado de conjunto, transformadores e aprendizado por reforço. Dado o alto poder computacional exigido por algumas DNNs, para atender aos requisitos de tempo real (conforme necessário em veí- culos autônomos), é necessário executar DNNs em Unidades de Processamento Gráfico (GPUs) que consomem muita energia. No entanto, para algumas tarefas específicas em aplicações de usuário, empregar um dispositivo de alta potência não seria necessário ouseria até mesmo inviável. Este trabalho avança o conhecimento sobre as Unidades de Processamento Tensor (TPU) do Google investigando sua sensibilidade a nêutrons e íons pesados em vários tipos de arquiteturas DNN. Além disso, o trabalho feito com a CNN também investiga o impacto da temperatura na taxa de erro da CNN em execução no TPU Coral. Além da CNN típica, outras arquiteturas e conceitos são testados. As arquiteturas e estratégias avaliadas são aprendizado de conjunto, transformadores e aprendizado por reforço. Além disso, uma nova estratégia de redundância dual-modular para aprendizado por reforço é proposta, onde alguns dos erros são corrigidos usando dados experimentais de testes de radiação. ...

Instituição

Universidade Federal do Rio Grande do Sul. Instituto de Informática. Programa de Pós-Graduação em Computação.

Coleções

Ciências Exatas e da Terra (5213)

Computação (1796)

Outras opções

Mostrar todos os metadados

Estatísticas

Este item está licenciado na Creative Commons License