高性能计算技术发展与优化策略

随着信息技术的飞速发展,高性能计算(HPC)已成为科学研究和工业应用中不可或缺的工具。本专题旨在探讨中国在高性能计算领域的技术赶超策略,并深入分析一系列关键技术,这些技术对于提升计算效率、优化资源分配、增强系统稳定性和推动应用创新具有重要意义。专题覆盖了从硬件架构优化、算法设计到系统管理的多个层面,包括但不限于互连网络的故障预测、存储技术的应用、并行计算原语的优化、多核处理器的算法设计、以及高性能计算与数据中心的网络融合等。

关键词:

  • 显示方式:
  • 简洁模式
  • 摘要模式
  • 1  高性能计算和数据中心融合网络研究综述
    陆平静,董德尊,赖明澈,齐星云,熊泽宇,曹继军,肖立权
    2023, 45(4):1-10. DOI: 10.11887/j.cn.202304001
    [摘要](6795) [HTML](365) [PDF 1.29 M](5431)
    摘要:
    随着高性能计算、大数据处理、云计算和人工智能计算呈融合发展趋势,高性能计算网络和数据中心网络的融合网络成为互连网络发展的重要趋势。分析当前融合网络研究现状;针对当前最具代表性的融合网络进行详细阐述,全面展示该领域的最新技术和动态;提出融合网络面临的技术挑战;基于技术挑战对融合网络的发展趋势进行展望,包括融合网络协议栈设计中融合与分化并存、基于在网计算实现融合网络性能加速、面向新兴应用需求优化融合网络性能。
    2  中国超算技术赶超发展模式探析
    苏诺雅
    2021, 43(3):86-97. DOI: 10.11887/j.cn.202103012
    [摘要](6808) [HTML](135) [PDF 8.98 M](5794)
    摘要:
    超级计算是解决国家安全、经济建设、科学进步、社会发展和国防建设等领域重大挑战性问题的重要手段,是各国科技发展中必争的战略制高点。通过调查和实证,重点分析了中国超算技术追赶中政府的引导作用和企业作为市场主体的作用。面向领域的战略需求,在财政能力非常有限的情况下,政府通过长期资助,形成厚实的知识和人才队伍积累;面向科技创新,政府主导全国的集群创新实现中国超算登顶,并建设国家超算基础设施;面向全面发展,积极发展超算应用,并按照企业是市场主体的原则,通过企业参与超算竞争研制,实现技术溢出和市场突破。超算技术发展模式可以为其他高技术领域发展提供借鉴经验。
    3  多核数字信号处理卷积算法并行优化
    许金伟,王庆林,李娅琳,姜晶菲,高蕾,李荣春,李东升
    2024, 46(1):103-112. DOI: 10.11887/j.cn.202401011
    [摘要](9182) [HTML](641) [PDF 1.74 M](2907)
    摘要:
    针对国防科技大学自主研发的异构多核数字信号处理(digital signal processing, DSP)芯片的特征以及卷积算法自身特点,提出了一种面向多核DSP架构的高性能多核并行卷积实现方案。针对1×1卷积提出了特征图级多核并行方案;针对卷积核大于1的卷积提出了窗口级多核并行优化设计,同时提出了逐元素向量化计算的核内并行优化实现。实验结果表明,所提并行优化方法实现单核计算效率最高能达到64.95%,在带宽受限情况下,多核并行扩展效率可达到48.36%~88.52%,在典型网络ResNet50上的执行性能与E5-2640 CPU相比,获得了5.39倍性能加速。
    4  长向量处理器高效RNN推理方法
    苏华友,陈抗抗,杨乾明
    2024, 46(1):121-130. DOI: 10.11887/j.cn.202401013
    [摘要](4792) [HTML](724) [PDF 3.14 M](2875)
    摘要:
    模型深度的不断增加和处理序列长度的不一致对循环神经网络在不同处理器上的性能优化提出巨大挑战。针对自主研制的长向量处理器FT-M7032,实现了一个高效的循环神经网络加速引擎。该引擎采用行优先矩阵向量乘算法和数据感知的多核并行方式,提高矩阵向量乘的计算效率;采用两级内核融合优化方法降低临时数据传输的开销;采用手写汇编优化多种算子,进一步挖掘长向量处理器的性能潜力。实验表明,长向量处理器循环神经网络推理引擎可获得较高性能,相较于多核ARM CPU以及Intel Golden CPU,类循环神经网络模型长短记忆网络可获得最高62.68倍和3.12倍的性能加速。
    5  高性能异构加速器MiniGo算子优化方法
    乔鹏,贺周雨,李荣春,姜晶菲
    2024, 46(1):131-140. DOI: 10.11887/j.cn.202401014
    [摘要](8016) [HTML](749) [PDF 4.79 M](2995)
    摘要:
    根据高性能异构加速器的特性和MiniGo的训练模式提出了一种高效的并行计算方法。对片上计算资源进行合理规划,实现异构设备之间的流水并行优化;根据异构设备间存在共享存储段设计了共享内存编码模式,减少数据传输开销;根据数字信号处理簇内具有多计算资源的特点结合算子计算-访存特性设计了不同的算子并行计算优化策略。同时,面向TensorFlow实现了一个易于使用的高性能计算库。实验结果显示,该方法实现了典型算子的多核并行计算。相对于单核,卷积算子加速比为24.69。相较于裁剪版8核FT2000+CPU,该方法训练和自博弈执行速度加速比分别为3.83和1.5。
    6  多核数字信号处理器并行矩阵转置算法优化
    裴向东,王庆林,廖林玉,李荣春,梅松竹,刘杰,庞征斌
    2023, 45(1):57-66. DOI: 10.11887/j.cn.202301006
    [摘要](17939) [HTML](231) [PDF 1.57 M](7223)
    摘要:
    矩阵转置是矩阵运算的基本操作,广泛应用于信号处理、科学计算以及深度学习等各种领域。随着国防科技大学自主研制的飞腾异构多核数字信号处理器(digital signal processor,DSP)在各种领域中的推广应用,对高性能矩阵转置实现提出了强烈需求。针对飞腾异构多核DSP的体系结构特征与矩阵转置操作的特点,提出了一种适配不同数据位宽(8 B、4 B以及2 B)矩阵的并行矩阵转置算法ftmMT。该算法基于DSP中向量处理单元的Load/Store部件实现了向量化,同时基于矩阵分块实现了多个DSP核的并行处理,通过隐式乒乓设计实现了片上向量化转置与片外访存的重叠以及访存性能的大幅提升。实验结果表明,ftmMT能够显著加快矩阵转置操作,与CPU上的开源转置库HPTT相比,可获得高达8.99倍的性能加速。
    7  高速并行Gardner算法设计与实现
    胡婉如,王竹刚,梅如如,陈轩,张颖
    2023, 45(2):95-104. DOI: 10.11887/j.cn.202302011
    [摘要](5035) [HTML](167) [PDF 8.49 M](3508)
    摘要:
    随着空间探测任务逐步增加、空间信道频谱资源日趋紧张,传统Gardner定时同步算法已经无法满足高速数传系统高通量、高可靠性的需求。为了提高Gardner定时同步算法的吞吐率并增大可纠正误差范围,提出一种高速并行Gardner算法。为了保证插值精度同时减少乘法器消耗,设计了一种并行分段抛物线插值滤波器;为了便于并行流水线设计和最佳采样点选取,构建了计数模块和定时缓存调整模块;为了提高等价吞吐率,重构了流水线并行环路滤波器结构和并行数控振荡器结构。结果表明,该算法等价吞吐率可达1 739.13 Msps,数字信号处理器资源消耗可减少44%,可纠正2×10-3的定时误差。
    8  高性能互连网络中端口阻塞故障预测方法
    徐佳庆,胡小弢,杨汉芝,王强,张磊,唐付桥
    2022, 44(5):1-12. DOI: 10.11887/j.cn.202205001
    [摘要](5860) [HTML](247) [PDF 12.06 M](3793)
    摘要:
    随着系统规模、芯片功耗和链路速率的提升,高性能互连网络的整体故障率也不断上升,传统运维方式将难以为继,给高性能计算系统整体可靠性和可用性带来了巨大挑战。针对网络端口阻塞这类严重网络故障,提出无监督算法的预测模型。该模型从历史信息中挖掘征兆性规律并形成新的特征向量,应用K-means聚类算法对特征向量进行学习归类。在预测时,结合端口当前状态,利用二次指数平滑算法对未来状态进行预测,将得到的新特征向量使用K-means算法预判是否会发生阻塞故障。利用拓扑结构信息,分别对叶交换机和根交换机构建预测子模型,进而提升预测的精确率。结果表明,该预测模型能保持在召回率为88.2%的前提下,达到65.2%的准确率,可为运维人员提供有效的辅助。
    9  并行规约与扫描原语在ReRAM架构上的性能优化
    金洲,段懿洳,伊恩鑫,戢昊男,刘伟峰
    2022, 44(5):80-91. DOI: 10.11887/j.cn.202205009
    [摘要](5044) [HTML](232) [PDF 19.75 M](3619)
    摘要:
    规约与扫描是并行计算中的核心原语,其并行加速至关重要。然而,冯·诺依曼体系结构下无法避免的数据移动使其面临“存储墙”等性能与功耗瓶颈。近来,基于ReRAM等非易失存储器的存算一体架构支持的原位计算可一步实现矩阵-向量乘,已在机器学习与图计算等应用中展现了巨大的潜力。提出面向忆阻器存算一体架构的规约与扫描的并行加速方法,重点阐述基于矩阵-向量乘运算的计算流程和在忆阻器架构上的映射方法,实现软硬件协同设计,降低功耗并提高性能。相比于GPU,所提规约与扫描原语可实现高达两个数量级的加速,平均加速比也可达到两个数量级。分段规约与扫描最大可达到五个(平均四个)数量级的加速,并将功耗降低79%。
    10  分布式异构集群中节点优先级调优算法
    胡亚红,邱圆圆,毛家发
    2022, 44(5):102-113. DOI: 10.11887/j.cn.202205011
    [摘要](4782) [HTML](236) [PDF 9.19 M](3786)
    摘要:
    节点优先级常用于评价异构集群中节点的性能,因此节点优先级评价指标权重的选择非常重要。采用层次分析法(analytic hierarchy process, AHP)建立了节点优先级评价指标体系,计算得到各指标的初始权重,并使用BP神经网络对初始权重进行优化。训练时,BP网络输入为集群运行中采集的节点实时资源数据,输出为节点的优先级。分析网络训练完成后得到的权重矩阵可以获得各优先级评价指标的优化权重。实验表明,基于AHP和BP的节点优先级评价模型可以更加准确地分析节点性能。相比于Spark默认算法和权重未优化的对照算法,使用调优后的节点优先级可以有效提高集群性能。运行不同工作量的相同负载时,集群平均性能分别提高了16.64%和9.76%;处理相同工作量的不同负载时,集群的平均性能分别提高了12.49%和6.54%。