doi:10.11887/j.cn.202305024

http://journal. nudt. edu. cn

# 利用整帧翻转的 SRAM 型 FPGA 故障注入加速算法<sup>\*</sup>

孙鹏跃,吕晟莱,毛二坤,张书政,陈 雷,周 欢,黄仰博,楼生强 (国际科技大学电子科学学院,湖南长沙 410073)

摘 要:不可恢复异常比特位(unrecoverable-sensitive bits, UR-SB)不能通过定时刷新修复,会造成卫星 载荷在轨服务的长时间中断,是地面故障注入试验需要着重评估和改善的。但 UR-SB 占比极低,若采用传统 逐位翻转故障注入方法,其测试耗时太长,效率极低。提出了一种基于整帧翻转的静态随机存取存储器型现 场可编程门阵列的故障注入加速算法,其通过整帧翻转能够快速筛除不存在 UR-SB 的配置帧,并进一步用二 分法对存在 UR-SB 的配置帧进行快速搜索,有效加速了 UR-SB 的精确定位过程。以在轨常用 XQR2V3000 器 件为例,理论分析在较差情况下测试效率可提升 207 倍,信号生成载荷实测结果最高可提升 949 倍,理论分析 和实测结果均验证了所提加速算法的有效性。

关键词:故障注入;整帧翻转;不可恢复异常比特位;抗辐照可靠性;现场可编程门阵列 中图分类号:TN791 文献标志码:A 文章编号:1001-2486(2023)05-207-05

# Accelerated fault injection algorithm for SRAM-based FPGA using whole frame upset

SUN Pengyue, LYU Shenglai, MAO Erkun, ZHANG Shuzheng, CHEN Lei, ZHOU Huan, HUANG Yangbo, LOU Shengqiang

(College of Electronic Science and Technology, National University of Defense Technology, Changsha 410073, China)

Abstract: UR-SB (unrecoverable-sensitive bits), which cannot be corrected by regular refresh, will cause long-term interruption of on-orbit service of satellite load. Thus, the impact of UR-SB needs to be evaluated and improved deeply by the fault injection tests. However, the proportion of UR-SB is extremely low. If the traditional bit-by-bit upset fault injection method is adopted, the fault injection tests would take too long time, and the efficiency is extremely low. A fault injection acceleration algorithm for static random access memory-based field programmable gate array based on whole frame upset was proposed, which can quickly filter out the configuration frames without UR-SB through whole frame upset fault injection. By taking dichotomy on the configuration frames with UR-SB, the precise positioning process of UR-SB can be speeded up effectively. Taking the commonly used XQR2V3000 device as an example, the simulation results indicate that the test efficiency can be improved by 207 times under the poor conditions, and the real data experimental results of the signal generation load by our group are increased by 949 times. These results demonstrate the validity of the acceleration algorithm proposed in this article.

Keywords: fault injection; whole frame upset; UR-SB; reliability of anti-irradiation; FPGA

静态随机存取存储器(static random access memory, SRAM)型现场可编程门阵列(field programmable gate array, FPGA)凭借其高性能、低 成本、低功耗、可重配置等优点,以及随着其集成 度的不断提高,逐渐开始应用于航空航天领 域<sup>[1-3]</sup>。但是由于 SRAM 型 FPGA 的结构特点, 以及空间中强辐射环境的作用, SRAM 型 FPGA 容易受到外太空中的高能粒子作用而发生单粒子 效应,其主要表现为单粒子翻转(single event upset, SEU)<sup>[4-6]</sup>。2007 年至 2010 年我国航天器 单粒子效应故障的统计表明,单粒子效应在空间 环境辐射效应中占据主导地位,对航天器的危害 日益严重。

当前针对 SRAM 型 FPGA 中单粒子效应的评 估方法主要由四种:一是利用航天器搭载 FPGA 进行高辐射试验,该方法虽然准确性高,但是成本 高,周期长<sup>[7-8]</sup>;二是利用高能粒子辐射,该方法 虽是目前业界公认的权威方法,但其不能实现准 确注入,试验机时十分紧张,且对器件存在一定的 损伤<sup>[9-10]</sup>;三是使用特定工具生成脉冲激光进行 单粒子效应模拟,但其成本较高,且试验技术复 杂<sup>[11-12]</sup>;四是基于故障注入的单粒子效应模拟方

<sup>\*</sup> 收稿日期:2021-07-16

**基金项目:**国家自然科学基金资助项目(62201585);湖南省科技创新计划资助项目(2023RC3004) 作者简介:孙鹏跃(1988—),男,陕西咸阳人,讲师,博士,硕士生导师,E-mail:sunnnpy@163.com; 陈雷(通信作者),男,福建福州人,讲师,博士,E-mail;chenlei1025@nudt.edu.cn

法,其成本低、周期短、可控性高、复杂性低<sup>[13-15]</sup>, 能够实现卫星载荷抗辐照加固设计的快速迭代和 优化。

目前故障注入方法主要是通过人为改变 FPGA 配置存储器内容的方式来实现故障注入。 传统逐位翻转故障注入方法的优点是能精准全面 定位敏感位(sensitive bit, SB),找到可恢复异常 比特位(recoverable-SB, R-SB)和不可恢复异常比 特位 (unrecoverable-SB, UR-SB)<sup>[16-17]</sup>。但由于 SRAM 型 FPGA 配置数据比特位数量庞大,逐位 翻转耗时太长,效率低,无法在设计前期快速迭 代。大量逐位翻转试验结果表明,造成整个设计 功能异常的大多是 R-SB,这类异常可通过刷新修 复,不会造成持续性的功能异常:只有少量的异常 比特位会造成持续性的功能异常,必须通过在轨 重加载恢复,这类异常的影响极大,会造成在轨服 务的长时间中断。工程中更加关注会造成持续异 常的情况,即UR-SB,但由于UR-SB占比很少,若 采用传统逐位翻转的测试方法,耗时太长,不利于 抗辐照设计优化快速迭代,因此,必须设计一种快 速发现 UR-SB 的加速故障测试方法。

为了解决 UR-SB 的快速定位问题,本文提出 一种基于整帧翻转的 SRAM 型 FPGA 的故障注入 加速试验方法,该方法不再采用传统逐位翻转的 思路,而是对配置文件进行整帧注错,刷新修复后 验证整个设计的功能异常,以快速模拟故障注入, 缩短试验耗时,快速定位 UR-SB 精确位置。

# 1 传统逐位翻转故障注入算法

建立故障注入试验模型,其中包含被测单元 (unit under test, UUT)、参考单元(reference unit, RU)、刷新单元(scrub unit, SU)以及控制单元 (control unit, CU)组成。其中:UUT运行待测试 配置项,并接受控制单元的故障注入;RU运行与 被测单元功能相同的配置项,作为功能参考标准; SU 通过动态局部刷新实现对 UUT 的故障注入, 并完成对 UUT 和 RU 等的全局加载;CU 完成对 UUT 和 RU 的配置,并负责结果比对、记录和整个 故障注入过程的控制。整个模型设计如图 1 所示。

传统逐位翻转故障注入算法流程简述如下:

Step 1: 配置初始化。完成对整个故障注入 平台的加载和功能配置。

Step 2:UUT 逐位翻转。当未达到最大比特数时,SU 逐比特对 UUT 配置数据进行取反,实现 故障注入,否则执行 Step 5。



图 1 故障注入试验模型 Fig. 1 Test model of fault injection

**Step 3**:结果判定。CU 对 UUT 和 RU 的数据 流进行比对并记录,若正确,则返回 Step 2,否则 执行 Step 4。

Step 4:刷新后再验证。SU 修复当前注入的 错误比特,再次判定比对结果并记录,若正确,则 返回 Step 2,否则,记录当前注错位置,返回 Step 1。

Step 5:统计结果,完成测试。

从上面的逐位翻转故障注入测试过程可知, 其能全面、精准定位所有敏感位,发现 R-SB 和 UR-SB。但 FPGA 配置数据比特位数量庞大,逐 位翻转耗时太长。卫星载荷在轨运行情况表明, UR-SB 无法通过定时刷新修复,必须通过在轨重 新加载恢复,会造成在轨服务的长时间中断。而 大量故障注入结果表明,UR-SB 仅占整个 SB 中 的极少部分,若采用传统逐位翻转的测试方法,效 率极低。

# 2 基于整帧翻转的 UR-SB 快速定位算法

基于整帧翻转和二分法的 UR-SB 快速定位 算法的整体思路为:首先对 UUT 配置数据进行整 帧翻转;然后通过 SU 修复之前的整帧翻转操作; 最后由 CU 比对数据流,若正确,则直接跳转到下 一帧,否则,通过二分法对当前帧进行 UR-SB 定 位。具体算法流程如图 2 所示。

基于整帧翻转的故障注入加速算法步骤 如下:

Step 1: 配置初始化。

Step 2:UUT 整帧翻转。当未达到最后 1 帧时,SU 依次对 UUT 进行整帧翻转,实现整帧故障 注入。

Step 3:刷新后验证。SU 修复当前帧的整帧 翻转,由 CU 对 UUT 和 RU 的数据流进行比对;若 正确,则说明当前帧不存在 UR-SB,返回 Step 2, 否则执行 Step 4。



#### 图 2 基于整帧翻转的故障注入加速算法流程 Fig. 2 Algorithm flow of fault injection based on

the whole frame upset

Step 4:二分法精确定位 UR-SB。执行配置 初始化,采用二分法重新对当前帧进行故障注入。 当第 m 次采用二分法时,对每段 1/2<sup>m</sup> 帧的所有 配置数据进行翻转,返回 Step 3 比对结果,若正 确,则说明该段 1/2<sup>m</sup> 帧不存在 UR-SB,否则,说明 该段存在 UR-SB。如此反复,当二分后每段范围 足够小时,直接采用传统逐位翻转故障注入,即可 精确定位 UR-SB 位置。当前帧测试完成后记录 结果,并返回 Step 1,继续下一帧测试。

Step 5:统计结果,完成测试。

可以看到,上述算法流程在整帧翻转后并没 有马上比对 UUT 和 RU 结果,故无法发现 R-SB, 且整帧翻转大概率会造成 UUT 功能异常。相比 于传统逐位翻转的故障注入方法,本文提出的基 于整帧翻转的故障注入快速算法的有效性分析 如下:

假设 SRAM 型 FPGA 配置文件总比特数为 *M*,UR-SB 总数为 *N*,配置文件总帧数为 *L*,每一帧 有 *K* 比特,异常帧采用 *m* 次二分法。由于不同卫 星载荷 FPGA 设计差异明显,难以分析 SB 在整个 配置文件中的具体分析,故本文设定相对最优和 较差的两种情况,以测试流程中的比对次数为指 标,分别分析整帧翻转算法的有效性。

假设最优情况下,所有 UR-SB 均位于同一帧 的同一段内,则这种情况下的测试次数为:

$$D_{\min} = (L-1) + \left(1 + 2m + \frac{K}{2^{m}}\right)$$
(1)

式中,L = 1为不含 UR-SB 帧的总测试次数, $1 + 2m + \frac{K}{2^m}$ 为包含 UR-SB 的单一帧采用二分法的测试次数。

对于假定的一种较差情况,假设配置文件中 每一帧都恰好包含有1 bit UR-SB,则测试次 数为:

$$D_{\max} = \left(1 + 2m + \frac{K}{2^m}\right)N \tag{2}$$

式中,N为配置文件总帧数。

对于传统逐位翻转测试方法而言,其总测试 次数为 *M*,则本文方法的测试效率相比传统方法 的提升倍数 *P* 可计算为:

$$\frac{M}{\left(1+2m+\frac{K}{2^{m}}\right)N} \leqslant P \leqslant \frac{M}{(L-1)+\left(1+2m+\frac{K}{2^{m}}\right)}$$
(3)

以目前在轨载荷应用最为广泛的 XQR2V3000器件为例,其配置文件总比特数为 9582848,总帧数为1804,每帧有5312bit,假设 每帧采用5次二分法。上文分析的最优情况的测 试次数为1980,较差情况的测试次数为319308。 因此,相比传统逐位翻转测试方法,本文所提算法 在 XQR2V3000平台上的测试效率提升倍数 P为:

$$30 \le P \le 4\ 839.\ 8$$
 (4)

可以看到,本文算法的测试效率提升明显,尽 管假设的较差情况和最优情况在工程实际中出现 的概率均不大,但即使在较差情况下,也提升了 30 倍,这充分证明了本文算法的有效性。

## 3 试验验证

前面对本文算法在假定条件下的性能进行 了理论分析,但毫无疑问,二分法次数 m、配置 文件总比特数 M 等参数必然会对算法的性能产 生影响。因此,本节首先对不同参数在假定较 差条件下的性能进行仿真分析,以确定在实际 测试环境下的最优参数选择;在此基础上,针对 本单位在轨运行的信号生成载荷的故障注入测 试结果进行分析,以实测结果进一步验证算法 的有效性。

针对卫星载荷在轨常用的 Xilinx 公司 XQR2V1000、XQR2V3000、XQR2V6000 型,以及 目前国产化的 XQR4VSX55 和 JFM7K325T 型共5 种 FPGA,分析不同二分法次数 m 对式(3)所示的 较差情况下加速测试相比于传统逐位翻转测试提 升倍速的影响,如图3所示。





可以看到,5型 FPGA 的加速效率均有显著 提升,特别是随着二分法次数的增加,测试效率 提升倍数也越来越高。尽管这主要是由于本文 假定每一帧仅有1 bit 错误, 但实测情况下, UR-SB本来就相对极少,且二分次数不可能太高,针 对分析的5款器件,最大二分次数仅为11,即使 因为二分操作会增加一部分试验次数,但这相 比于百万甚至千万量级的总比特数,可忽略不 计。故在实际工程中,建议选取最大的二分法 次数。目前在轨载荷最常用的 XQR2V3000 型 FPGA 最大提升倍数为 207, 这意味着对于动辄 需要几个月的逐位翻转试验,若采用本文所述 的基于整帧翻转的加速注错方法,可在几天之 内完成所有 UR-SB 的精确定位,这在卫星载荷 研制初期,对于载荷配置项的抗辐照加固设计 评估和提升具有重要意义。

结合针对在轨信号生成载荷的故障注入试 验测试结果,进一步分析本方法在实际工程中 的有效性。该载荷采用 XQR2V3000 器件,故 障注入试验平台设计如图 4 所示,主要包含: 被测 FPGA、参考 FPGA、测试 FPGA、刷新控制 器以及上位机组成。其中被测 FPGA 由 1 片 SRAM 型 FPGA 实现,运行被测试设计的三模 加固配置项,提供实际运行场景;参考 FPGA 由 1 片SRAM 型 FPGA 实现,运行被测试设计的单 模配置项,作为功能参考标准;测试 FPGA 由 1 片SRAM 型 FPGA 实现,负责比对被测 FPGA 和 参考 FPGA 的数据流是否一致;刷新控制器由1 片 SRAM 型 FPGA 实现,负责通过 SelectMAP 接 口对被测 FPGA、参考 FPGA、测试 FPGA 进行全 局加载,并实现对被测 FPGA 的动态局部刷新; 上位机(处理器)由1 片数字信号处理(digital signal process, DSP)芯片实现,与 FPGA 通过总 线交互,所有的寄存器均可通过 DSP 处理器访 问,控制被测 FPGA、参考 FPGA 输出数据流,获 取数据流比对结果,控制整个故障注入试验 过程。



图 4 XQR2V3000 FPGA 故障注入试验平台 Fig. 4 Fault injection test system based on XQR2V3000 FPGA

在上述试验平台上对信号生成载荷逐位翻转 测试方法的测试结果如下:共测试1 420 帧 (BRAM 的对应 384 帧一般不进行故障注入测 试),共7 543 040 bit,最终定位 292 个 UR-SB。分 析 UR-SB 分布情况发现,大部分帧不存在 UR-SB,部分帧存在1 bit UR-SB,少数帧中存在多个 UR-SB。采用本文所述的整帧翻转加速方法后, 5 次二分法和 10 次二分法的总试验次数分别为 46 522和7 948,总试验次数相比传统逐位翻转测 试方法的7 543 040 次显著下降,不同方法的测试 结果对比如表1 所示。

实测结果表明:85.3% (1 212 帧)的整帧不存在 UR-SB,这表明采用本文整帧翻转加速算法必然能大幅提升测试效率。当采用 5 次二分法时,测试次数共为 46 522,是传统逐位翻转测试法的 1/162,即约加速了 162 倍,而当采用 10 次二分法时,该加速倍数增加 949 倍,上述结果充分证明了本文基于整帧翻转测试方法的有效性。

|            |                             | Tab. 1   | Analysis of the experiment results |                    |                               |          |
|------------|-----------------------------|----------|------------------------------------|--------------------|-------------------------------|----------|
| 项目         | 0 bit 错误                    | 1 bit 错误 | 2 bit 错误                           | 3 bit 错误           | 4 bit 错误                      | 7 bit 错误 |
| 帧数         | 1 212                       | 146      | 47                                 | 11                 | 3                             | 1        |
| 帧内错误分布     |                             |          | 位于1段:26帧<br>位于2段:21帧               | 位于2段:6帧<br>位于3段:5帧 | 位于2段:1帧<br>位于3段:1帧<br>位于4段:1帧 | 位于7段:1帧  |
| 5 次二分试验次数  | 1 212                       | 25 842   | 11 973                             | 4 721              | 1 569                         | 1 205    |
| 10 次二分试验次数 | 1 212                       | 3 942    | 1 749                              | 671                | 219                           | 155      |
| 总试验次数      | 46 522(5 次二分)、7 948(10 次二分) |          |                                    |                    |                               |          |

表1 实测结果分析

#### 4 结论

卫星载荷在轨发生不可恢复的 SEU 是目前 影响在轨服务连续性的最大因素,尽管传统逐位 翻转能够更加全面地定位在轨设计的敏感位分布 情况,但其测试效率太低,特别是针对 UR-SB 的 定位。本文提出了基于整帧翻转的加速故障注入 算法,并采用二分法对存在 UR-SB 的配置帧进行 快速搜索,仿真和实测结果表明,该方法能够显著 提升故障测试效率。然而,整帧翻转算法无法定 位 R-SB,评估结果不够全面,需要根据工程应用 的实际需求,与传统故障注入算法结合运用,以支 撑卫星载荷在轨抗空间辐照可靠性设计。

# 参考文献(References)

- [1] ZHANG R S, XIAO L Y, LI J. A fast and accurate fault injection platform for SRAM-based FPGAs[C]//Proceedings of IEEE 12th International Conference on ASIC, 2017.
- [2] WANG J Q, DUAN Y Q, MA T F. A fault injection system for space imaging application [C]//Proceedings of SPIE Conference on Applied Optics and Photonics China, 2019.
- [3] ZHANG R S, XIAO L Y, LI J, et al. An adjustable and fast error repair scrubbing method based on Xilinx essential bits technology for SRAM-based FPGA[J]. IEEE Transactions on Reliability, 2020, 69(2): 430 – 439.
- HE G H, ZHENG S J, JING N F. A hierarchical scrubbing technique for SEU mitigation on SRAM-based FPGAs [J].
   IEEE Transactions on Very Large Scale Integration (VLSI) Systems, 2020, 28(10): 2134 – 2145.
- [5] MAO C G, XIE Y, XIE Y Z, et al. An automated fault injection platform for fault tolerant FFT implemented in SRAM-based FPGA [ C ]//Proceedings of 31st IEEE International System-on-Chip Conference, 2019.
- [6] XIE Y, CHEN H, XIE Y Z, et al. An automated FPGAbased fault injection platform for granularly-pipelined fault tolerant CORDIC [ C ]//Proceedings of International Conference on Field-Programmable Technology, 2018.
- [7] 杨道宁. SRAM 型 FPGA 单粒子效应故障注入测试方法关键技术研究[D]. 长沙:国防科学技术大学,2013.
  YANG D N. Research on key technologies of SRAM-based FPGA single event effect fault injection test method [D].
  Changsha: National University of Defense Technology, 2013.

(in Chinese)

- [8] 舒德刚. SRAM 型 FPGA 单粒子翻转定向故障注入技术研究[D]. 哈尔滨:哈尔滨工业大学, 2019.
  SHU D G. Research on single event flip directional fault injection technology for SRAM-type FPGA [D]. Harbin: Harbin Institute of Technology, 2019. (in Chinese)
- [9] ZHANG R S, XIAO L Y, LI J, et al. A fast fault injection platform of multiple SEUs for SRAM-based FPGAs [C]// Proceedings of Prognostics and System Health Management Conference, 2017.
- [10] THURLOW C, ROWBERRY H, WIRTHLIN M. TURTLE: a low-cost fault injection platform for SRAM-based FPGAs[C]// Proceedings of International Conference on Reconfigurable Computing and FPGAs, 2019.
- [11] KRETZSCHMAR U, ASTARLOA A, JIMÉNEZ J, et al. Compact and fast fault injection system for robustness measurements on SRAM-based FPGAs [J]. IEEE Transactions on Industrial Electronics, 2014, 61(5): 2493 – 2503.
- [12] ALBERTO ARANDA L, REVIRIEGO P, MAESTRO J A. A comparison of dual modular redundancy and concurrent error detection in finite impulse response filters implemented in SRAM-based FPGAs through fault injection [J]. IEEE Transactions on Circuits and Systems II: Express Briefs, 2018, 65(3): 376-380.
- [13] ZHANG R S, XIAO L Y, LI J, et al. A fault injection platform supporting both SEU and multiple SEUs for SRAMbased FPGA[J]. IEEE Transactions on Device and Materials Reliability, 2018, 18(4): 599 – 605.
- [14] MANSOUR W, VELAZCO R. An automated SEU faultinjection method and tool for HDL-based designs [J]. IEEE Transactions on Nuclear Science, 2013, 60 (4): 2728 – 2733.
- [15] WANG Z B, CHEN W, YAO Z B, et al. Analyzing single event upset on Kintex-7 field-programmable-gate-array with random fault injection method [J]. Nuclear Instruments and Methods in Physics Research, Section A: Accelerators, Spectrometers, Detectors and Associated Equipment, 2020, 966: 163866.
- [16] ZHOU J, LIU Z R, CHEN L, et al. Study of an automated precise SEU fault injection technique [C]//Proceedings of IEEE 26th International Parallel and Distributed Processing Symposium Workshops & PhD Forum, 2012.
- [17] MICHEL H, GUZMÁN-MIRANDA H, DÖRFLINGER A, et al. SEU fault classification by fault injection for an FPGA in the space instrument SOPHI [ C ]//Proceedings of NASA/ESA Conference on Adaptive Hardware and Systems (AHS), 2017.