存算一体架构与类脑计算

随着以卷积神经网络(convolutional neural networks,CNN)、深度神经网络(deep neural networks,DNN)、递归神经网络(recurrent neuralnetworks,RNN)等为代表的神经网络算法中的不断成熟,人工智能(artificial intelligence,AI)在自动驾驶、语音与图像识别、知识搜索、语义理解等众多应用领域获得了广泛应用。然而,目前大多数AI芯片本质上仍然采用了存算分离的冯·诺伊曼架构,在计算时需要将数据在存储单元与运算单元之间进行频繁搬移,因而仍然具有较高的延迟和能耗。目前,开发高性能的人工神经突触是突破冯·诺伊曼架构瓶颈实现高能效存算一体类脑计算的研究热点。
本专题聚焦于存算一体的类脑计算架构,从忆阻器架构上基于矩阵-向量乘运算的映射方法、校准方法和存内原位训练的神经形态计算方法的研究,到忆阻器阵列结构设计和集成工艺、多忆阻器阵列互连结构设计等多种存算一体芯片技术方案。这些研究不仅为高能效存算一体架构的忆阻类脑芯片提供了先进技术支撑和创新解决方案,还展现其走向实际应用亟需解决的问题和挑战。

关键词:

  • 显示方式:
  • 简洁模式
  • 摘要模式
  • 1  忆阻器类脑计算芯片研究现状综述
    陈长林,骆畅航,刘森,刘海军
    2023, 45(1):1-14. DOI: 10.11887/j.cn.202301001
    [摘要](7608) [HTML](240) [PDF 14.15 M](5038)
    摘要:
    为把握忆阻类脑芯片发展现状并总结其发展趋势,对现有忆阻类脑计算芯片与架构进行了调研,对芯片中所采用的忆阻器阵列结构和集成工艺、前神经元电路、后神经元电路、多阵列互连拓扑结构与数据传输策略,以及芯片设计过程中所采用的系统仿真和评估方法进行了对比分析。总结出当前忆阻类脑计算芯片电路设计仍需解决忆阻器可用阻态少、器件参数波动性大、阵列外围电路复杂、集成规模小等问题,并指出了该类芯片走向实际应用仍然面临着忆阻器生产工艺提升、完善开发工具支持、专用指令集开发、确定典型牵引性应用等挑战。
    2  校准方法和存内训练相结合的忆阻器神经形态计算方法
    杜湘瑜,彭杰,刘海军
    2023, 45(5):202-206. DOI: 10.11887/j.cn.202305023
    [摘要](4929) [HTML](354) [PDF 1.28 M](3292)
    摘要:
    基于忆阻器的神经形态计算架构在图像分类、语音识别等领域取得了较好的效果,但当忆阻器阵列存在低良率问题时,其性能会出现明显下降。提出一种基于忆阻器神经形态计算的校准方法和原位训练相结合的算法,利用校准方法提高乘累加计算的准确率,并利用原位训练方法降低训练误差。为了验证所提方法的性能,采用多层感知器架构进行仿真。从仿真结果来看,神经网络的精度有明显的提高(近40%)。实验结果表明,与单纯的校准方法相比,采用所提方法训练的网络精度提高了约30%,与其他主流的方法相比,所提方法训练的网络精度提高了0.29%。
    3  面向大规模卷积计算的多忆阻器阵列互连结构设计
    唐励勤,刁节涛,陈长林,骆畅航,刘彪,刘思彤,张宇飞,王琴
    2023, 45(5):222-230. DOI: 10.11887/j.cn.202305026
    [摘要](8053) [HTML](386) [PDF 2.85 M](2925)
    摘要:
    针对现有多忆阻器阵列集成架构中存在的数据加载、读出效率低以及阵列协同灵活性差等问题,提出一种高效率、高灵活度的阵列互连架构。该架构所采用的数据加载策略支持多种权重映射模式下的数据复用,减少了片外数据访存需求;所采用的计算结果读出网络支持多个处理单元灵活组合实现不同规模卷积运算,以及计算结果的快速累加读出,进而提升了芯片灵活性和整体算力。在NeuroSim仿真平台上运行VGG-8网络进行的仿真实验表明,与MAX2神经网络加速器相比,在仅增加6%面积开销的情况下,取得了146%的处理速度提升。
    4  并行规约与扫描原语在ReRAM架构上的性能优化
    金洲,段懿洳,伊恩鑫,戢昊男,刘伟峰
    2022, 44(5):80-91. DOI: 10.11887/j.cn.202205009
    [摘要](5042) [HTML](232) [PDF 19.75 M](3608)
    摘要:
    规约与扫描是并行计算中的核心原语,其并行加速至关重要。然而,冯·诺依曼体系结构下无法避免的数据移动使其面临“存储墙”等性能与功耗瓶颈。近来,基于ReRAM等非易失存储器的存算一体架构支持的原位计算可一步实现矩阵-向量乘,已在机器学习与图计算等应用中展现了巨大的潜力。提出面向忆阻器存算一体架构的规约与扫描的并行加速方法,重点阐述基于矩阵-向量乘运算的计算流程和在忆阻器架构上的映射方法,实现软硬件协同设计,降低功耗并提高性能。相比于GPU,所提规约与扫描原语可实现高达两个数量级的加速,平均加速比也可达到两个数量级。分段规约与扫描最大可达到五个(平均四个)数量级的加速,并将功耗降低79%。