【技术实现步骤摘要】
一种提高容器云上分布式任务训练效率的方法及系统
本专利技术涉及容器云、分布式机器学习领域;具体地,涉及一种提高容器云上分布式任务训练效率的方法及系统。
技术介绍
随着大数据和机器学习研究的不断深入,大数据时代的机器学习开始呈现出“大模型”和“大数据”的特点。其中的“大模型”,是指随着机器学习(特别是深度学习)的进展,许多问题越来越需要一个更大的模型才能有能力去尽量接近要解决问题的具体功能;“大数据”则是指训练数据集较小时,机器学习(特别是深度学习)的效果并不理想,因此通常需要尽量大的数据作为训练集,以提高机器学习的效果。这样就使得在大规模机器学习训练场景下,训练数据和模型参数大到单台机器无法处理。因此,分布式机器学习也随之出现。分布式机器学习是指将训练任务拆解成若干个小的任务,分配到多个设备上进行训练。分布式机器学习不仅是将训练任务分布到多个处理器上,同时也将数据(包括训练数据以及中间结果)分布在不同设备的存储中。为了获得更大的计算能力、存储、吞吐量以及容错能力,人们越来越倾向于分布式机器学习训练。然而,一个具备实用意义的用于分布式机器学习训练的裸机集群(即物理主 ...
【技术保护点】
1.一种提高容器云上分布式任务训练效率的方法,其特征在于,包括:在容器云平台部署分布式训练任务时,分解训练任务为若干个子任务;并为所述子任务生成环境配置参数;为训练任务部署容器集群:为子任务创建对应的容器/容器组,和提供连接访问服务、以及额外提供RDMA网络接入;在容器集群部署完成后和启动分布式训练任务前,重新配置所述子任务的网络环境,使其通信时使用RDMA网络通信;配置完成后,启动执行性分布式训练任务。
【技术特征摘要】
1.一种提高容器云上分布式任务训练效率的方法,其特征在于,包括:在容器云平台部署分布式训练任务时,分解训练任务为若干个子任务;并为所述子任务生成环境配置参数;为训练任务部署容器集群:为子任务创建对应的容器/容器组,和提供连接访问服务、以及额外提供RDMA网络接入;在容器集群部署完成后和启动分布式训练任务前,重新配置所述子任务的网络环境,使其通信时使用RDMA网络通信;配置完成后,启动执行性分布式训练任务。2.根据权利要求1所述的提高容器云上分布式任务训练效率的方法,其特征在于,通过更新环境配置参数中的默认连接参数,实现所述的重新配置网络环境:获取所述子任务涉及的容器/容器组的RDMA连接参数,以之更新替换所述的子任务的环境配置参数中的默认连接参数。3.根据权利要求1所述的提高容器云上分布式任务训练效率的方法,其特征在于,通过屏蔽所述子任务对应容器/容器组的默认网络DNS并为之提供RDMA网络DNS,实现所述的重新配置网络环境:为所述的RDMA网络提供RDMA网络DNS服务,同时指定其为所述子任务对应容器/容器组的主DNS。4.根据权利要求1所述的提高容器云上分布式任务训练效率的方法,其特征在于,所述的提供连接访问服务和RDMA网络接入:通过多网卡cni为所述容器/容器组提供不少于两个的虚拟网卡接口;其中,第一网卡接口,用于挂载虚拟网卡;所述容器/容器组通过其接入默认网络;第二网卡接口,用于挂载虚拟RDMA网卡;所述容器/容器组通过其接入RDMA网络。5.根据权利要求4所述的提高容器云上分布式任务训练效率的方法,其特征在于,通过sriov-cni为所述容器/容器组提供所述的第二网络接口;对应地,通过sriov虚拟物理RDMA网卡获得所述虚拟RDMA网卡。6.一种提高容器云上分布式任务训练效率的系统,其特征在于,包括:分布式训练任务管理单元、任务调度单元和容器云平台;...
【专利技术属性】
技术研发人员:张春海,孙夏,冉玫美,
申请(专利权)人:北京瀚海星云科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。