System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 集群网络的低延迟可靠数据传输方法和装置制造方法及图纸_技高网

集群网络的低延迟可靠数据传输方法和装置制造方法及图纸

技术编号:40546075 阅读:7 留言:0更新日期:2024-03-05 19:03
本发明专利技术公开了一种集群网络的低延迟可靠数据传输方法和装置,所述方法基于集群端侧主机来实现,所述方法包括:利用发送端网卡,从发送端内存中获取传输任务描述符;所述传输任务描述符,包括待发送数据的发送地址、待发送数据的接收地址、待发送数据长度、描述符标识号;利用发送端网卡,对所述传输任务描述符进行处理,得到连接资源信息和待发送数据包;利用发送端主机和接收端主机,对所述连接资源信息和待发送数据包进行传输处理,完成数据传输过程。本发明专利技术方法能够为几乎所有消息减少一个RTT的连接开销,也具有完善的机制来应对接收端没有连接资源的特殊情况。大规模重负载和严重端点拥塞的流量也没有给本发明专利技术方法带来性能下降。

【技术实现步骤摘要】

本专利技术涉及高性能计算及数据中心网络领域,尤其涉及一种集群网络的低延迟可靠数据传输方法和装置


技术介绍

1、随着高性能计算系统日益增长的规模和不断增加的复杂性,使得其系统硬件部件出现故障的可能性增大,系统的可用性成为高性能计算机系统设计需要优先考虑的重要因素。互联网络既是高性能计算系统的重要组成部分,也是容易出现瞬时或永久故障的部件。互连网络一般会提供点点可靠传输机制,但却无法应对诸如报文丢失或链路断开这样故障。hpc系统的检查点机制虽然能在一定程度上容忍网络故障,但是检查点的记录会影响程序的性能,并且错误恢复的软件开销也比较大。

2、remote direct memory access(rdma)协议允许终端主机绕过内核直接读写主存中的数据,同时将网络协议栈中传输协议及以下的部分卸载到支持rdma的网络接口卡(rnic)上,从而使得rdma可以满足现代high-performance computing(hpc)应用所需要的高带宽、低延迟以及低cpu开销网络堆栈的需求。鉴于rdma带来的显著性能优势,它已经以专有网络的形式被广泛应用于hpc互连网络中。

3、因此,hpc系统的rdma专用网络应该具备消息级的硬件端端可靠数据传输服务,以保障其性能优势。系统硬件通过提供端到端可靠数据传输服务,能容忍报文丢失或链路断开等网络故障,可以在消息级实现实时错误检测和恢复。与基于软件的错误恢复方法相比,硬件可靠数据传输服务不影响程序正常执行,出错后也不用暂停程序再重启执行,因此其错误检测和出错恢复的开销较小。</p>

4、在实际的hpc系统中,remote direct memory access(rdma)协议将消息级的数据的恢复和重传卸载到nic上,连接的建立和释放在nic上完成,连接上下文的信息也在nic上维护,由于无需软件参与,其显著地降低了数据恢复的开销。同时,由于网卡上的资源是有限的,连接需要快速动态地建立和释放来保证网卡一直具有空闲的连接资源。因此,该协议为每个消息都建立连接。除了少数的长消息外,其他消息的连接会迅速随着传输的完成而被释放。在这一方式中,在每一个消息发送之前,发送端和接收端网卡之间需要耗费最少一个rtt的时间来建立连接。消息出现故障毕竟是小概率事件,但所有消息都增加了一个连接建立的开销。尤其是对那些长度在几个rtt甚至小于一个rtt的短消息来说,这个开销将严重影响它们的延迟性能。


技术实现思路

1、本专利技术所要解决的技术问题在于,提供一种集群网络的低延迟可靠数据传输方法和装置,有利于提高高性能计算系统的传输效率,降低传输故障率,进而减少rdma协议中的rtt短消息开销,减少传输延迟,消除大规模重负载和严重端点拥塞的流量对高性能计算系统的影响。

2、本专利技术实施例第一方面,公开了一种集群网络的低延迟可靠数据传输方法,所述方法基于集群端侧主机来实现,所述集群端侧主机包括:发送端主机和接收端主机;所述发送端主机包括发送端网卡和发送端内存;所述接收端主机,包括接收端网卡和接收端内存;所述方法包括:

3、s1,利用发送端网卡,从发送端内存中获取传输任务描述符;所述传输任务描述符,包括待发送数据的发送地址、待发送数据的接收地址、待发送数据长度、描述符标识号;所述描述符标识号,用于对传输任务进行唯一标识;所述传输任务描述符,用于描述传输任务信息;

4、s2,利用发送端网卡,对所述传输任务描述符进行处理,得到连接资源信息和待发送数据包;

5、s3,利用发送端主机和接收端主机,对所述连接资源信息和待发送数据包进行传输处理,完成数据传输过程。

6、所述利用发送端网卡,对所述传输任务描述符进行处理,得到连接资源信息和待发送数据包,包括:

7、s21,利用发送端网卡,对所述传输任务描述符进行设置处理,得到对应的连接资源信息;所述连接资源信息,包括发送端主机标识号、连接标识号和接收端主机标识号;将所述连接标识号存储在所述发送端网卡中;所述发送端网卡和接收端网卡,均包括若干个连接资源;所述连接标识号,用于表示传输任务所用的发送端网卡的连接资源的编号;所述发送端主机标识号,是集群网络为发送端主机分配的标识号;

8、s22,根据所述传输任务描述符的待发送数据的发送地址和待发送数据长度,利用发送端网卡从发送端内存中获取待发送数据;

9、s23,利用发送端网卡,对所述待发送数据的接收地址、发送端主机标识号、描述符标识号和所述待发送数据进行分段封装处理,得到待发送数据包;将每个待发送数据包,逐个发送至接收端网卡;所述待发送数据包,包括所述待发送数据的接收地址、发送端主机标识号、描述符标识号和分段待发送数据。

10、所述利用发送端主机和接收端主机,对所述连接资源信息和待发送数据包进行传输处理,完成数据传输过程,包括:

11、s31,利用发送端网卡,对所述发送端主机标识号、描述符标识号、待发送数据长度和连接标识号进行组合处理,得到连接事件信息;将所述连接事件信息发送到接收端主机;

12、s32,利用接收端网卡接收得到所述待发送数据包,确认所述待发送数据包为接收数据包;判断接收端网卡是否具有空闲的存储资源,得到第一判断结果;若所述第一判断结果为是,接收端主机对所述接收数据包进行第一接收处理,完成数据传输过程;若所述第一判断结果为否,接收端主机和发送端主机对所述接收数据包进行第二接收处理,完成数据传输过程。

13、所述接收端主机对所述接收数据包进行第一接收处理,完成数据传输过程,包括:

14、s3201,接收端网卡对所述接收数据包中的发送端主机标识号、描述符标识号进行组合处理,得到索引信息;判断接收端网卡的存储资源分配信息表中是否存在所述索引信息的存储资源信息,得到第二判断结果;所述存储资源分配信息表,存储有所有的索引信息及其对应的所分配的存储资源信息;

15、若所述第二判断结果为是,执行s3202;若所述第二判断结果为否,执行s3203;

16、s3202,接收端网卡根据所述接收数据包携带的数据量,更新接收端网卡中存储的接收传输任务描述符中的已接收数据长度,执行s3204;

17、s3203,接收端网卡根据所述接收数据包携带的数据量,更新接收端网卡中存储的接收传输任务描述符中的已接收数据长度;接收端网卡根据所述索引信息中的描述符标识号和发送端主机标识号,为所述描述符标识号分配对应的存储资源;将所述索引信息和所分配的存储资源的信息,添加到所述存储资源分配信息表中;

18、s3204,接收端网卡,根据所述接收数据包中的所述待发送数据的接收地址,将所述分段待发送数据,存入接收端内存中;

19、s3205,接收端网卡,根据所述连接事件信息中的描述符标识号,确定对应的待发送数据长度;利用所述待发送数据长度,更新接收端网卡的所存储的传输任务描述符数据量长度;完成数据传输过程。

20、所述接收端主机本文档来自技高网...

【技术保护点】

1.一种集群网络的低延迟可靠数据传输方法,其特征在于,所述方法基于集群端侧主机来实现,所述集群端侧主机包括:发送端主机和接收端主机;所述发送端主机包括发送端网卡和发送端内存;所述接收端主机,包括接收端网卡和接收端内存;所述方法包括:

2.如权利要求1所述的集群网络的低延迟可靠数据传输方法,其特征在于,所述利用发送端网卡,对所述传输任务描述符进行处理,得到连接资源信息和待发送数据包,包括:

3.如权利要求1所述的集群网络的低延迟可靠数据传输方法,其特征在于,所述利用发送端主机和接收端主机,对所述连接资源信息和待发送数据包进行传输处理,完成数据传输过程,包括:

4.如权利要求3所述的集群网络的低延迟可靠数据传输方法,其特征在于,所述接收端主机对所述接收数据包进行第一接收处理,完成数据传输过程,包括:

5.如权利要求3所述的集群网络的低延迟可靠数据传输方法,其特征在于,所述接收端主机和发送端主机对所述接收数据包进行第二接收处理,完成数据传输过程,包括:

6.如权利要求5所述的集群网络的低延迟可靠数据传输方法,其特征在于,所述接收端主机和发送端主机对所述接收数据包进行第三接收处理,完成数据传输过程,包括:

7.如权利要求6所述的集群网络的低延迟可靠数据传输方法,其特征在于,所述发送端网卡接收得到连接确认事件信息后,进行第一发送处理,得到待发送数据包,包括:

8.一种集群网络的低延迟可靠数据传输装置,其特征在于,所述装置包括:

9.一种计算机可存储介质,其特征在于,所述计算机可存储介质存储有计算机指令,所述计算机指令被调用时,用于执行如权利要求1-7中任一项所述的集群网络的低延迟可靠数据传输方法。

10.一种信息数据处理终端,其特征在于,所述信息数据处理终端用于实现权利要求1-7任一项所述的集群网络的低延迟可靠数据传输方法。

...

【技术特征摘要】

1.一种集群网络的低延迟可靠数据传输方法,其特征在于,所述方法基于集群端侧主机来实现,所述集群端侧主机包括:发送端主机和接收端主机;所述发送端主机包括发送端网卡和发送端内存;所述接收端主机,包括接收端网卡和接收端内存;所述方法包括:

2.如权利要求1所述的集群网络的低延迟可靠数据传输方法,其特征在于,所述利用发送端网卡,对所述传输任务描述符进行处理,得到连接资源信息和待发送数据包,包括:

3.如权利要求1所述的集群网络的低延迟可靠数据传输方法,其特征在于,所述利用发送端主机和接收端主机,对所述连接资源信息和待发送数据包进行传输处理,完成数据传输过程,包括:

4.如权利要求3所述的集群网络的低延迟可靠数据传输方法,其特征在于,所述接收端主机对所述接收数据包进行第一接收处理,完成数据传输过程,包括:

5.如权利要求3所述的集群网络的低延迟可靠数据传输方法,其特征在于,所...

【专利技术属性】
技术研发人员:董德尊吴克杨雨昂
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1