E级超级计算机故障预测的数据采集方法
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:

国家自然科学基金资助项目(61272141,61120106005);国家863计划资助项目(2012AA01A301)


Data collection for failure prediction toward exascale supercomputers
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    面向未来E级超级计算机,提出用于故障预测的数据采集框架,能够全面采集与计算结点故障相关的状态数据。采用自适应多层分组数据汇集方法,有效解决随着系统规模增长数据汇集过程开销过大的问题。在TH-1A超级计算机上的实现和测试表明,该数据采集框架具有开销小、扩展性好的优点,能够满足未来大规模系统故障预测数据采集的需求。

    Abstract:

    Aimed at an exascale supercomputer, an FPDC (failure prediction data collection framework) was introduced to fully collect the data related to the state of compute nodes’ health. An adaptive multi-layer data aggregation method was presented for data aggregation with less overhead. Extensive experiments, by implementing FPDC on TH-1A,indicate that the FPDC has the advantage of high efficiency and good scalability.

    参考文献
    相似文献
    引证文献
引用本文

胡维,蒋艳凰,刘光明,等. E级超级计算机故障预测的数据采集方法[J].国防科技大学学报,2016,38(1):93-100.
HU Wei, JIANG Yanhuang, LIU Guangming, et al. Data collection for failure prediction toward exascale supercomputers[J]. Journal of National University of Defense Technology,2016,38(1):93-100.

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2015-04-09
  • 最后修改日期:
  • 录用日期:
  • 在线发布日期: 2016-03-07
  • 出版日期:
文章二维码