【技术实现步骤摘要】
一种根据IP分配表更新分布式训练任务连接参数的方法
本专利技术涉及容器云、分布式机器学习领域;具体地,涉及一种根据IP分配表更新分布式训练任务连接参数的方法。
技术介绍
随着大数据和机器学习研究的不断深入,大数据时代的机器学习开始呈现出“大模型”和“大数据”的特点。其中的“大模型”,是指随着机器学习(特别是深度学习)的进展,许多问题越来越需要一个更大的模型才能有能力去尽量接近要解决问题的具体功能;“大数据”则是指训练数据集较小时,机器学习(特别是深度学习)的效果并不理想,因此通常需要尽量大的数据作为训练集,以提高机器学习的效果。这样就使得在大规模机器学习训练场景下,训练数据和模型参数大到单台机器无法处理。因此,分布式机器学习也随之出现。分布式机器学习是指将训练任务拆解成若干个小的任务,分配到多个设备上进行训练。分布式机器学习不仅是将训练任务分布到多个处理器上,同时也将数据(包括训练数据以及中间结果)分布在不同设备的存储中。为了获得更大的计算能力、存储、吞吐量以及容错能力,人们越来越倾向于分布式机器学习训练。然而,一个具备实用意义的用于分布式机器学习训练的裸机集群( ...
【技术保护点】
1.一种根据IP分配表更新分布式训练任务连接参数的方法,其特征在于,包括:在容器云平台部署分布式训练任务过程中:在为训练任务部署容器集群时,为子任务创建对应的容器/容器组和提供连接访问服务、以及额外提供RDMA网络接入;所述的子任务是由待训练任务分解的;在为所述容器集群中的容器/容器组分配RDMA网络IP时,创建IP分配表;所述IP分配表,以所述容器/容器组对应的子任务的环境配置参数中的默认连接参数为容器/容器组名称,记录所述容器集群中容器/容器组的RDMA网络IP;在所述容器集群部署完成后和启动分布式训练任务前,将所述环境配置参数中的默认连接参数更新为所述容器/容器组的RDMA网络IP。
【技术特征摘要】
1.一种根据IP分配表更新分布式训练任务连接参数的方法,其特征在于,包括:在容器云平台部署分布式训练任务过程中:在为训练任务部署容器集群时,为子任务创建对应的容器/容器组和提供连接访问服务、以及额外提供RDMA网络接入;所述的子任务是由待训练任务分解的;在为所述容器集群中的容器/容器组分配RDMA网络IP时,创建IP分配表;所述IP分配表,以所述容器/容器组对应的子任务的环境配置参数中的默认连接参数为容器/容器组名称,记录所述容器集群中容器/容器组的RDMA网络IP;在所述容器集群部署完成后和启动分布式训练任务前,将所述环境配置参数中的默认连接参数更新为所述容器/容器组的RDMA网络IP。2.根据权利要求1所述的根据IP分配表更新分布式训练任务连接参数的方法,其特征在于,所述的提供连接访问服务和RDMA网络接入:通过多网卡cni为所述容器/容器组提供不少于两个的虚拟网卡接口;其中,第一网卡接口,用于挂载虚拟网卡;所述容器/容器组通过其接入默认网络;第二网卡接口,用于挂载虚拟RDMA网卡;所述容器/容器组通过其接入RDMA网络。3.根据权利要求2所述的根据IP分配表更新分布式训练任务连接参数的方法,其特征在于,通过sriov-cni为所述容器/容器组提供所述的第二网络接口;对应地,通过sriov虚拟物理RDMA网卡获得所述虚拟RDMA网卡。4.一种在容器云上运行的分布式训练任务数据通信的方法,其特征在于,包括:在容器云平台部署分布式训练任务过程中:在为训练任务部署容器集群时,为子任务创建对应的容器/容器组和提供连接访问服务、以及额外提供RDMA网络接入;所述的子任务是由待训练任务分解的;进而以权利要求1-3任一所述的方法,为所述容器集群中的容器/容器组分配RDMA网络IP...
【专利技术属性】
技术研发人员:张春海,孙夏,冉玫美,
申请(专利权)人:北京瀚海星云科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。