高性能计算与人工智能

关键词:

  • 显示方式:
  • 简洁模式
  • 摘要模式
  • 1  面向众核处理器的阴阳K-means算法优化
    周天阳,王庆林,李荣春,梅松竹,尹尚飞,郝若晨,刘杰
    2024, 46(1):93-102. DOI: 10.11887/j.cn.202401010
    [摘要](14701) [HTML](631) [PDF 1.09 M](2586)
    摘要:
    传统阴阳K-means算法处理大规模聚类问题时计算开销十分昂贵。针对典型众核处理器的体系结构特征,提出了一种阴阳K-means算法高效并行加速实现。该实现基于一种新内存数据布局,采用众核处理器中的向量单元来加速阴阳K-means中的距离计算,并面向非一致内存访问(non-unified memory access, NUMA)特性进行了针对性的访存优化。与阴阳K-means算法的开源多线程实现相比,该实现在ARMv8和x86众核平台上分别获得了最高约5.6与8.7的加速比。因此上述优化方法在众核处理器上成功实现了对阴阳K-means算法的加速。
    2  多核数字信号处理卷积算法并行优化
    许金伟,王庆林,李娅琳,姜晶菲,高蕾,李荣春,李东升
    2024, 46(1):103-112. DOI: 10.11887/j.cn.202401011
    [摘要](9087) [HTML](625) [PDF 1.74 M](2807)
    摘要:
    针对国防科技大学自主研发的异构多核数字信号处理(digital signal processing, DSP)芯片的特征以及卷积算法自身特点,提出了一种面向多核DSP架构的高性能多核并行卷积实现方案。针对1×1卷积提出了特征图级多核并行方案;针对卷积核大于1的卷积提出了窗口级多核并行优化设计,同时提出了逐元素向量化计算的核内并行优化实现。实验结果表明,所提并行优化方法实现单核计算效率最高能达到64.95%,在带宽受限情况下,多核并行扩展效率可达到48.36%~88.52%,在典型网络ResNet50上的执行性能与E5-2640 CPU相比,获得了5.39倍性能加速。
    3  注意力机制量化剪枝优化方法
    何源宏,姜晶菲,许金伟
    2024, 46(1):113-120. DOI: 10.11887/j.cn.202401012
    [摘要](11183) [HTML](1306) [PDF 4.50 M](2547)
    摘要:
    面向基于注意力机制模型的巨大计算和访存开销问题,研究量化和剪枝协同优化的模型压缩技术,提出针对注意力机制中查询、键、值、概率共四个激活值矩阵的对称线性定点量化方法。同时,提出概率矩阵剪枝方法和渐进式剪枝策略,有效降低剪枝精度损失。在不同数据集上的实验结果表明,针对典型基于注意力机制模型BERT,在较低或者没有精度损失的情况下该优化方法可达到4位或8位定点量化、0.93~0.98的稀疏度,大幅度降低模型计算量,为加速量化稀疏模型的推理奠定良好的基础。
    4  长向量处理器高效RNN推理方法
    苏华友,陈抗抗,杨乾明
    2024, 46(1):121-130. DOI: 10.11887/j.cn.202401013
    [摘要](4679) [HTML](705) [PDF 3.14 M](2713)
    摘要:
    模型深度的不断增加和处理序列长度的不一致对循环神经网络在不同处理器上的性能优化提出巨大挑战。针对自主研制的长向量处理器FT-M7032,实现了一个高效的循环神经网络加速引擎。该引擎采用行优先矩阵向量乘算法和数据感知的多核并行方式,提高矩阵向量乘的计算效率;采用两级内核融合优化方法降低临时数据传输的开销;采用手写汇编优化多种算子,进一步挖掘长向量处理器的性能潜力。实验表明,长向量处理器循环神经网络推理引擎可获得较高性能,相较于多核ARM CPU以及Intel Golden CPU,类循环神经网络模型长短记忆网络可获得最高62.68倍和3.12倍的性能加速。
    5  高性能异构加速器MiniGo算子优化方法
    乔鹏,贺周雨,李荣春,姜晶菲
    2024, 46(1):131-140. DOI: 10.11887/j.cn.202401014
    [摘要](7946) [HTML](724) [PDF 4.79 M](2918)
    摘要:
    根据高性能异构加速器的特性和MiniGo的训练模式提出了一种高效的并行计算方法。对片上计算资源进行合理规划,实现异构设备之间的流水并行优化;根据异构设备间存在共享存储段设计了共享内存编码模式,减少数据传输开销;根据数字信号处理簇内具有多计算资源的特点结合算子计算-访存特性设计了不同的算子并行计算优化策略。同时,面向TensorFlow实现了一个易于使用的高性能计算库。实验结果显示,该方法实现了典型算子的多核并行计算。相对于单核,卷积算子加速比为24.69。相较于裁剪版8核FT2000+CPU,该方法训练和自博弈执行速度加速比分别为3.83和1.5。
    6  面向GPU的5G新型无线电的高吞吐率LDPC译码器
    李荣春,周鑫,乔鹏,王庆林
    2024, 46(1):141-148. DOI: 10.11887/j.cn.202401015
    [摘要](6206) [HTML](762) [PDF 1.07 M](2147)
    摘要:
    提出了一种基于图形处理单元(graphic processing unit,GPU)的5G软件无线电准循环低密度奇偶校验(low density parity check, LDPC)码译码器,为了节省片上和片下带宽,采用码字缩短和打孔技术、两级量化和数据打包方案,以提升数据带宽的利用率。实验基于Nvidia RTX 2080Ti GPU平台实现了高码率情况下的最小和近似译码算法的并行译码,通过分析GPU上的最优线程设置,将码率为5/6的(2 080,1 760) LDPC算法的译码吞吐率提升至1.38 Gbit/s,译码吞吐率性能优于现有其他基于GPU的LDPC译码器。