摘要:为了对“天河”网络中基于网卡的集合通信硬件卸载功能进行进一步优化,以支持更多类型的集合通信算法以及更大的消息尺寸,研究了面向集合通信硬件卸载的维序触发机制和数据缓存方法。提出了面向多任务并发的保序触发机制,既满足了期望的集合通信语义,又确保了浮点计算操作结果的可复现性。提出了基于哈希(Hash)表和脉冲信用流控的网络数据动态缓存方法,以缓解有限的硬件缓存资源和多任务并发的大量网络数据缓存需求之间的矛盾问题。实验结果表明,与基于软件方式的集合通信操作相比,可以支持多种典型集合通信操作的多种算法的硬件卸载,且性能提升效果显著,同时,硬件实现代价较低,尤其是在缓存资源方面具有较高的利用率。