用于融合以太网上的RDMA(RoCE)云规模多租赁制造技术

技术编号:38764181 阅读:18 留言:0更新日期:2023-09-10 10:37
描述了用于数据联网的技术和装置。在一个示例中,一种方法包括接收包括虚拟局域网(VLAN)标签和服务质量(QoS)数据字段的第一层2远程直接存储器访问(RDMA)分组;将第一层2RDMA分组转换成第一层3封装的分组;以及将第一层3封装的分组转发到交换机架构。在这种方法中,转换包括向第一层2RDMA分组添加至少一个报头,其中所述至少一个报头包括:基于来自VLAN标签的信息的虚拟网络标识符,以及基于来自QoS数据字段的信息的QoS值。自QoS数据字段的信息的QoS值。自QoS数据字段的信息的QoS值。

【技术实现步骤摘要】
【国外来华专利技术】用于融合以太网上的RDMA(RoCE)云规模多租赁
[0001]相关申请的交叉引用
[0002]本申请要求于2020年12月30日提交的标题为“CLOUD SCALE MULTI

TENANCY FOR RDMA OVER CONVERGED ETHERNET(RoCE)”的第63/132,417号美国临时申请、于2021年2月2日提交的标题为“CLOUD SCALE MULTI

TENANCY FOR RDMA OVER CONVERGED ETHERNET(RoCE)”的第17/165,877号美国非临时申请、于2021年2月3日提交的标题为“CLASS

BASED QUEUING FOR SCALABLE MULTI

TENANT RDMA TRAFFIC”的第17/166,922号美国非临时申请和于2021年4月1日提交的标题为“CLASS

BASED QUEUEING FOR SCALABLE MULTI

TENANT RDMA TRAFFIC”的第PCT/US2021/025459号PCT申请的优先权,它们出于所有目的通过引用整体并入本文。

技术介绍

[0003]融合以太网上的RDMA(RoCE)是允许通过无损以太网网络进行远程直接存储器访问(RDMA)的网络协议。RoCE通过在以太网上封装InfiniBand(IB)传输分组来实现这一点。通常,RoCE涉及具有专用RDMA队列和专用VLAN的层2网络。但是,层2网络无法扩展且性能不佳,因为它们缺乏更具可扩展性和高性能的层3网络中存在的关键特性和特点。因此,现有的公共云实施方式无法使用RoCE协议提供数据传送。

技术实现思路

[0004]本公开一般而言涉及数据联网。更具体地,描述了使层2流量能够使用层3协议在层3网络上传送的技术。在某些实施例中,本文描述的技术使远程直接存储器访问(RDMA)流量(例如,融合以太网上的RDMA(RoCE)流量)能够通过共享的层3物理网络或使用层3路由协议的交换机架构从多租户主机机器(即,托管属于不同租户或客户的计算实例的主机机器)上的计算实例传送到另一个多租户主机机器上的计算实例。这种通信也可以可选地包括其它流量(例如,TCP和/或UDP流量)。客户或租户体验到通信发生在专用的层2网络上,而通信实际上发生在使用层3路由协议的共享(即,在多个客户或租户之间共享)层3网络上。本文描述了各种实施例,包括方法、系统、存储可由一个或多个处理器执行的程序、代码或指令的非暂态计算机可读存储介质等。
[0005]在某些实施例中,一种数据联网的方法包括在入口交换机处并从为多个租户执行多个计算实例的主机机器接收针对多个租户之中的第一租户的第一层2RDMA分组;将第一层2RDMA分组转换成具有至少一个报头的第一层3封装的分组;以及将第一层3封装的分组转发到交换机架构,其中第一层2RDMA分组包括虚拟局域网(VLAN)标签和服务质量(QoS)数据字段,并且其中转换包括将至少一个报头添加到第一层2RDMA分组,至少一个报头包括:基于来自VLAN标签的信息的虚拟网络标识符,以及基于来自QoS数据字段的信息的QoS值。该方法还可以包括:在交换机架构的中间交换机处并且响应于拥塞的指示,修改第一层3封装的分组的至少一个报头的拥塞通知数据字段。可替代地或附加地,该方法还可以包括接收包括VLAN标签和QoS数据字段的第二层2RDMA分组;将第二层2RDMA分组转换成具有至少
一个报头的第二层3封装的分组;以及将第二层3封装的分组转发到交换机架构,其中第二层2RDMA分组的VLAN标签指示与第一层2RDMA分组的VLAN标签不同的VLAN。这种方法还可以包括,在交换机架构的中间交换机处:基于第一层3封装的分组的至少一个报头的QoS值,将第一层3封装的分组排入中间交换机的第一队列;以及基于第二层3封装的分组的至少一个报头的QoS值,将第二层3封装的分组排入中间交换机的与第一队列不同的第二队列。
[0006]在又一些实施例中,一种数据联网的方法包括,在出口交换机处,接收第一层3封装的分组;对第一层3封装的分组进行解封装以获得第一层2RDMA分组;基于第一层3封装的分组的至少一个报头的拥塞通知数据字段中的信息,设置第一层2RDMA分组的拥塞通知数据字段的值;以及在设置之后,并且基于第一层2RDMA分组的VLAN标签,将第一层2RDMA分组转发到第一计算实例。该方法还可以包括,在出口交换机处,接收第二层3封装的分组;对第二层3封装的分组进行解封装以获得第二层2RDMA分组;以及基于第二层2RDMA分组的VLAN标签,将第二层2RDMA分组转发到与第一计算实例不同的第二计算实例。这种方法还可以包括,在出口交换机处:基于第一层3封装的分组的外部报头的服务质量(QoS)值,将第一层3封装的分组排入出口交换机的第一队列;以及基于第二层3封装的分组的外部报头的QoS值,将第二层3封装的分组排入出口交换机的与第一队列不同的第二队列。
[0007]在又一些实施例中,描述了用于RDMA流量的基于类的排队的技术(例如,在层3网络中),其可以被用于在云规模的网络架构中维持基于类的分离,使得特定队列中的RDMA流量不会影响其它队列中的RDMA流量。根据某些实施例,系统可以被实现为包括用于传输不同类和来自不同租户的RDMA流量的共享架构,其中从一个RDMA网络接口控制器(NIC)到另一个NIC的跨越共享架构的路径中的每个设备包括专用于不同类的RDMA流量的多个队列。
[0008]根据某些实施例,一种对RDMA分组进行排队的方法包括由联网设备接收多个RDMA分组。多个RDMA分组中的每个RDMA分组包括服务质量(QoS)数据字段,并且对于多个RDMA分组中的每个RDMA分组,QoS数据字段具有指示服务的类的QoS值RDMA分组位于多个QoS值之中。该方法还包括由联网设备在多个RDMA队列之间分发多个RDMA分组。根据多个QoS值到多个RDMA队列的第一映射来执行分发。这种方法还包括由联网设备在多个RDMA队列之中根据第一权重从多个RDMA队列中检索多个RDMA分组。检索到的多个RDMA分组可以包括多个分组流,在这种情况下,示例还可以包括根据每流等价多路径方案来路由检索到的多个RDMA分组的多个分组流。多个RDMA分组中的每个RDMA分组可以是RoCEv2分组,或者多个RDMA分组中的每个RDMA分组可以是根据覆盖封装协议(例如,VxLAN、NVGRE、GENEVE、STT或MPLS)格式化的层3封装分组。
[0009]在进一步的示例中,分发包括响应于确定多个RDMA分组中的第一RDMA分组的QoS数据字段具有第一QoS值而将第一RDMA分组存储到多个RDMA队列中的第一RDMA队列;以及,响应于确定多个RDMA分组中的第二RDMA分组的QoS数据字段具有第二QoS值而将第二RDMA分组存储到多个RDMA队列中的第二RDMA队列,其中第二QoS值与第一QoS值本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种数据联网的方法,所述方法包括:在入口交换机处并从为多个租户执行多个计算实例的主机机器接收针对所述多个租户之中的第一租户的第一层2RDMA分组;将第一层2RDMA分组转换成具有至少一个报头的第一层3封装的分组;以及将第一层3封装的分组转发到交换机架构,其中第一层2RDMA分组包括虚拟局域网(VLAN)标签和服务质量(QoS)数据字段,以及其中所述转换包括将所述至少一个报头添加到第一层2RDMA分组,所述至少一个报头包括:基于来自VLAN标签的信息的虚拟网络标识符,以及基于来自QoS数据字段的信息的QoS值。2.根据权利要求1所述的方法,还包括:在交换机架构的中间交换机处并且响应于拥塞的指示,修改第一层3封装的分组的所述至少一个报头的拥塞通知数据字段。3.根据权利要求1所述的方法,还包括:在入口交换机处,接收包括VLAN标签和QoS数据字段的第二层2RDMA分组;将第二层2RDMA分组转换成具有至少一个报头的第二层3封装的分组;以及将第二层3封装的分组转发到交换机架构,其中第二层2RDMA分组的VLAN标签指示与第一层2RDMA分组的VLAN标签所指示的不同的VLAN。4.根据权利要求3所述的方法,还包括在交换机架构的中间交换机处:基于第一层3封装的分组的所述至少一个报头的QoS值,将第一层3封装的分组排入中间交换机的第一队列;以及基于第二层3封装的分组的所述至少一个报头的QoS值,将第二层3封装的分组排入中间交换机的与第一队列不同的第二队列。5.根据权利要求3所述的方法,还包括:在出口交换机处,接收第一层3封装的分组;对第一层3封装的分组进行解封装以获得第一层2RDMA分组;以及基于第一层2RDMA分组的VLAN标签,将第一层2RDMA分组转发到第一计算实例;在出口交换机处,接收第二层3封装的分组;对第二层3封装的分组进行解封装以获得第二层2RDMA分组;以及基于第二层2RDMA分组的VLAN标签,将第二层2RDMA分组转发到与第一计算实例不同的第二计算实例。6.根据权利要求1所述的方法,还包括:在出口交换机处,接收第一层3封装的分组;对第一层3封装的分组进行解封装以获得第一层2RDMA分组;以及基于第一层2RDMA分组的VLAN标签,将第一层2RDMA分组转发到第一计算实例。7.根据权利要求6所述的方法,还包括,基于第一层3封装的分组的所述至少一个报头的拥塞通知数据字段中的信息,设置第一层2RDMA分组的拥塞通知数据字段的值。8.根据权利要求1至7中的任一项所述的方法,其中QoS值是第一层3封装的分组的外部
IP报头的差分服务代码点(DSCP)字段,其中所述转换包括将第一层2RDMA分组的IP报头的DSCP字段复制到第一层3封装的分组的外部IP报头的DSCP字段。9.根据权利要求1至7中的任一项所述的方法,其中第一层3封装的分组是虚拟可扩展局域网(VxLAN)分组,以及其中虚拟网络标识符是第一层3封装的分组的VxLAN报头的虚拟网络标识符(VNI)。10.一种数据联网的方法,所述方法包括:在出口交换机处,接收第一层3封装的分组;对第一层3封装的分组进行解封装以获得第一层2RDMA分组;基于第一层3封装的分组的至少一个报头的拥塞通知数据字段中的信息,设置第一层2RDMA分组的拥塞通知数据字段的值;以及在设置之后,并且基于第一层2RDMA分组的VLAN标签,将第一层2RDMA分组转发到在主机机器上执行的第一计算实例,其中第一计算实例是在主机机器上执行的多个计算实例之中。11.根据权利要求10所述的方法,还包括:在出口交换机处,接收第二层3封装的分组;对第二层3封装的分组进行解封装以获得第二层2RDMA分组;以及基于第二层2RDMA分组的VLAN标签,将第二层2RDMA分组转发到与第一计算实例不同的第二计算实例。12.根据权利要求11所述的方法,还包括在出口交换机处:基...

【专利技术属性】
技术研发人员:S
申请(专利权)人:甲骨文国际公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1