面向国产平台的大模型训练显存优化技术
DOI:
作者:
作者单位:

国防科技大学 并行与分布计算全国重点实验室

作者简介:

通讯作者:

中图分类号:

TP302.7

基金项目:

国家自然科学基金资助项目(62025208 ,62421002)


Technologies for memory optimization for large model training on domestic platforms
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献()
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    当前大模型训练中,模型参数量呈指数级增长与GPU显存容量缓慢增长的矛盾日益尖锐。重计算和计算卸载两种显存优化技术,均是以时间换空间的思路来减小显存开销。本文首先分析了重计算技术和计算卸载技术的发展动态,然后针对国产人工智能计算平台的架构特点,剖析了国产平台上大模型训练显存优化面临的硬件带宽瓶颈、定制化指令集与软件生态适配等难题,分析了国产平台软硬件协同显存优化等技术发展路径,对MT-3000等国产计算平台上的大模型训练显存优化技术展开探讨,以期为国产平台上的大模型训练提供参考。

    Abstract:

    In the current landscape of large-scale model training, the contradiction between the exponential growth of model parameters and the slow increase in GPU memory capacity has become increasingly prominent. Among memory optimization technologies, recomputation and computational offloading reduce GPU memory overhead by trading time for space. The development trends of recomputation and computational offloading are first analyzed in this article. Then, the hardware bandwidth bottlenecks and software ecosystem adaptation challenges faced by memory optimization are analyzed, with a focus on the heterogeneous architecture characteristics of domestic artificial intelligence platforms. It also delves into the memory optimization technologies for large model training on domestic platforms such as MT-3000, with the aim of providing technical references for large model training on domestic platforms.

    参考文献
    相似文献
    引证文献
引用本文
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2025-12-06
  • 最后修改日期:2026-02-04
  • 录用日期:2026-02-05
  • 在线发布日期:
  • 出版日期:
文章二维码