基于RDMA设备的深度学习作业运行方法及系统技术方案

技术编号:33142996 阅读:11 留言:0更新日期:2022-04-22 13:54
本发明专利技术属于机器学习技术领域,公开了一种基于RDMA设备的深度学习作业运行方法及系统。所述方法包括:对RDMA网卡设备进行虚拟化,以生成多个虚拟网卡;在接收到深度学习作业容器发送的网卡分配请求时,通过单根容器网络接口将对应的虚拟网卡挂载至所述深度学习作业容器;RDMA分布式作业适配软件在接收到所述深度学习作业容器发送的作业运行信息时,根据所述作业运行信息分配RDMA网卡设备资源并进行作业运行。通过RDMA网卡设备满足高通信带宽,降低了对CPU资源的消耗、降低延时,利用单根容器网络接口能够实现性能隔离、安全隔离。安全隔离。安全隔离。

【技术实现步骤摘要】
基于RDMA设备的深度学习作业运行方法及系统


[0001]本专利技术涉及机器学习
,尤其涉及一种基于RDMA设备的深度学习作业运行方法及系统。

技术介绍

[0002]随着深度学习在人工智能领域的快速发展,其在计算机视觉、自然语言处理、自动驾驶等众多领域均展现了强大的能力。在深度学习技术发展过程中,分布式训练已经成为提高训练效率的首选方式,容器化集群方式已成为目前分布式训练的标准方案,但是随着训练数据量快速增长与高性能计算硬件的出现,传统的网络通信方式与现有开源的深度学习引擎存在下列问题:
[0003](1)传统的TCP/IP(Transmission Control Protocol/Internet Protocol,传输控制协议/网际协议)网络通信技术已经不能满足高性能计算设备对通信网络性能的要求,在带宽,延迟、对CPU负载的占用等方面甚至都已成为高性能计算系统的瓶颈。
[0004](2)主流的深度学习引擎在使用RDMA(Remote Direct Memory Access,远程直接数据存取)网络设备时,存在无法自适应识别出RDMA网卡设备类型与特定的通道参数等信息,使用RDMA网卡设备的进程还需要特殊的权限才能申请与使用大块锁页内存,这些问题使得多种深度学习引擎进行模型训练时对RDMA网卡设备的适配容易出错。
[0005](3)在容器化集群环境中运行分布式模型训练时,使用现有的开源RDMA网卡设备CNI(Container Network Interface,容器网络接口)插件服务都还存在安全隔离、性能隔离等问题与缺陷。
[0006]上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。

技术实现思路

[0007]本专利技术的主要目的在于提供一种基于RDMA设备的深度学习作业运行方法及系统,旨在解决现有技术中深度学习平台对CPU资源消耗大、缺乏设备性能隔离及安全隔离的技术问题。
[0008]为实现上述目的,本专利技术提供了一种基于RDMA设备的深度学习作业运行方法,所述方法包括以下步骤:
[0009]对RDMA网卡设备进行虚拟化,以生成多个虚拟网卡;
[0010]在接收到深度学习作业容器发送的网卡分配请求时,通过单根容器网络接口将对应的虚拟网卡挂载至所述深度学习作业容器;
[0011]在接收到所述深度学习作业容器发送的作业运行信息时,根据所述作业运行信息分配RDMA网卡设备资源并进行作业运行。
[0012]优选地,所述对RDMA网卡设备进行虚拟化,以生成多个虚拟网卡的步骤,具体包括:
[0013]对RDMA网卡设备进行虚拟化,以生成多个虚拟网卡实例,并创建虚拟机将所述虚拟网卡实例挂载至所述虚拟机。
[0014]优选地,所述在接收到深度学习作业容器发送的网卡分配请求时,通过单根容器网络接口将对应的虚拟网卡挂载至所述深度学习作业容器的步骤,具体包括:
[0015]在接收到深度学习作业容器发送的网卡分配请求时,通过单根容器网络接口遍历所有虚拟网卡;
[0016]在遍历获取到的虚拟网卡为非占用状态的目标虚拟网卡时,停止遍历并将所述目标虚拟网卡挂载至所述深度学习作业容器。
[0017]优选地,所述在遍历获取到的虚拟网卡为非占用状态的目标虚拟网卡时,停止遍历并将所述目标虚拟网卡挂载至所述深度学习作业容器的步骤,具体包括:
[0018]在遍历获取到的虚拟网卡为非占用状态的目标虚拟网卡时,将所述目标虚拟网卡的当前状态设置为占用状态;
[0019]将所述目标虚拟网卡的虚拟设备文件挂载至所述深度学习作业容器,并将所述目标虚拟网卡设置在所述深度学习作业容器对应的网络命名空间。
[0020]优选地,所述在接收到所述深度学习作业容器发送的作业运行信息时,根据所述作业运行信息分配RDMA网卡设备资源并进行作业运行的步骤,具体包括:
[0021]在接收到所述深度学习作业容器发送的作业运行信息时,遍历所有RDMA网络硬件列表以获取RDMA网卡设备信息;
[0022]在遍历到的RDMA网卡设备信息与所述作业运行信息匹配时,停止遍历并将所述RDMA网卡设备信息作为目标网卡设备信息;
[0023]根据所述目标网卡设备信息及所述作业运行信息获取环境变量参数,并根据所述环境变量进行作业运行。
[0024]优选地,所述在接收到所述深度学习作业容器发送的作业运行信息时,根据所述作业运行信息对所述深度学习作业分配RDMA网卡设备资源以进行作业运行的步骤之后,还包括:
[0025]在接收到深度学习作业容器发送的释放请求时,通过单根容器网络接口对所述深度学习作业容器进行虚拟网卡卸载。
[0026]优选地,所述在接收到深度学习作业容器发送的释放请求时,通过单根容器网络接口对所述深度学习作业容器进行虚拟网卡卸载的步骤,具体包括:
[0027]在接收到深度学习作业容器发送的释放请求时,通过单根容器网络接口释放掉所述虚拟网卡的IP地址、子网掩码和网关配置,将所述虚拟网卡的网络命名空间从所述深度学习作业容器的网络命名空间还原为宿主机的网络命名空间,并将所述虚拟网卡从所述深度学习作业容器卸载,并将所述虚拟网卡设备的当前状态由占用状态修改为空闲状态。
[0028]此外,为实现上述目的,本专利技术还提出一种基于RDMA设备的深度学习作业运行系统,所述系统包括:一个主节点及多个子节点;其中,所述子节点包括:
[0029]物理机,用于对RDMA网卡设备进行虚拟化,以生成多个虚拟网卡;
[0030]单根容器网络接口,用于在接收到深度学习作业容器发送的网卡分配请求时,将对应的虚拟网卡挂载至所述深度学习作业容器;
[0031]所述物理机,还用于在接收到所述深度学习作业容器发送的作业运行信息时,根
据所述作业运行信息分配RDMA网卡设备资源并进行作业运行。
[0032]本专利技术通过对RDMA网卡设备进行虚拟化,以生成多个虚拟网卡;在接收到深度学习作业容器发送的网卡分配请求时,通过单根容器网络接口将对应的虚拟网卡挂载至所述深度学习作业容器;在接收到所述深度学习作业容器发送的作业运行信息时,根据所述作业运行信息对所述深度学习作业分配RDMA网卡设备资源以进行作业运行。通过RDMA网卡设备满足高通信带宽,降低了对CPU资源的消耗、降低延时,利用单根容器网络接口能够实现性能隔离、安全隔离。
附图说明
[0033]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
[0034]图1是本专利技术基于RDMA设备的深度学习作业运行方法的RDMA网卡设备虚拟化映射关系图;
[0035]图2为本专利技术基于RDMA设备的深度学习作业运行方法第一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于RDMA设备的深度学习作业运行方法,其特征在于,所述方法包括:对RDMA网卡设备进行虚拟化,以生成多个虚拟网卡;在接收到深度学习作业容器发送的网卡分配请求时,通过单根容器网络接口将对应的虚拟网卡挂载至所述深度学习作业容器;在接收到所述深度学习作业容器发送的作业运行信息时,根据所述作业运行信息分配RDMA网卡设备资源并进行作业运行。2.如权利要求1所述的基于RDMA设备的深度学习作业运行方法,其特征在于,所述对RDMA网卡设备进行虚拟化,以生成多个虚拟网卡的步骤,具体包括:对RDMA网卡设备进行虚拟化,以生成多个虚拟网卡实例,并创建虚拟机将所述虚拟网卡实例挂载至所述虚拟机。3.如权利要求2所述的基于RDMA设备的深度学习作业运行方法,其特征在于,所述在接收到深度学习作业容器发送的网卡分配请求时,通过单根容器网络接口将对应的虚拟网卡挂载至所述深度学习作业容器的步骤,具体包括:在接收到深度学习作业容器发送的网卡分配请求时,通过单根容器网络接口遍历所有虚拟网卡;在遍历获取到的虚拟网卡为非占用状态的目标虚拟网卡时,停止遍历并将所述目标虚拟网卡挂载至所述深度学习作业容器。4.如权利要求3所述的基于RDMA设备的深度学习作业运行方法,其特征在于,所述在遍历获取到的虚拟网卡为非占用状态的目标虚拟网卡时,停止遍历并将所述目标虚拟网卡挂载至所述深度学习作业容器的步骤,具体包括:在遍历获取到的虚拟网卡为非占用状态的目标虚拟网卡时,将所述目标虚拟网卡的当前状态设置为占用状态;将所述目标虚拟网卡的虚拟设备文件挂载至所述深度学习作业容器,并将所述目标虚拟网卡设置在所述深度学习作业容器对应的网络命名空间。5.如权利要求4所述的基于RDMA设备的深度学习作业运行方法,其特征在于,所述在接收到所述深度学习作业容器发送的作业运行信息时,根据所述作业运行信息对所述深度学习作业分配RDMA网卡设备资源以进行作业...

【专利技术属性】
技术研发人员:洪志刚黄林林健徐驰
申请(专利权)人:东云睿连武汉计算技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1