分布式机器学习任务启动方法、系统、设备及存储介质技术方案

技术编号：24707283 阅读：12 留言：0更新日期：2020-06-30 23:52

本发明专利技术提供了一种分布式机器学习任务启动方法、系统、设备及存储介质，所述方法包括：配置kubernetes Pod资源中的环境变量，所述环境变量包括所有节点的域名和端口信息；配置kubernetes Pod资源中容器的启动命令，所述启动命令将所述环境变量传入分布式机器学习任务启动脚本；根据所述环境变量和所述容器的启动命令创建kubernetes Pod资源，所述kubernetes Pod资源中容器配置为执行所述启动命令。本发明专利技术使用灵活、不固定的网络元组信息，同时也省去需要二次登录再执行启动命令的步骤，来实现在启动容器时直接执行启动命令，从而提高分布式机器学习任务启动过程的灵活性和高效性。

全部详细技术资料下载

【技术实现步骤摘要】
分布式机器学习任务启动方法、系统、设备及存储介质
本专利技术涉及数据处理
，尤其涉及一种分布式机器学习任务启动方法、系统、设备及存储介质。
技术介绍
随着大数据与云计算的兴起，两者驱动着人工智能在飞速发展。机器学习作为人工智能领域内的一种重要技术，由于有了大数据和云计算的支撑，也在变得越来越普及和实用，这也就是现在非常流行的数据+算法模型推动应用发展的模式。在大数据和云计算时代到临之前，数据规模有限，设计的算法模型也比较简单，大多数的时候都是单台机器(单节点)进行模型训练。但现在，数据量变得非常大，模型结构也越来越复杂，单台机器的容量和计算能力都有限，不能我们的需求，我们需要扩大规模来解决这个问题，因此分布式机器学习越来越成为一种趋势。分布式机器学习指利用多台机器(数十，几百或者上千)来组成一个计算集群，通过这个计算集群来训练需要使用大量数据的复杂算法模型。分布式机器学习能够加速模型训练的过程，缩短训练时间，提升模型训练的效率。由于需要利用多台机器，分布式机器学习中，一般会设计有不同的角色，角色之间功能不同，每种角色包含多个节点，所有的节点组成一起就是完整的计算集群。一次具体的训练任务，需要将所有的节点都启动，每个节点上的启动命令需要知道其他节点的网络元组信息，如果信息缺少或者有误，整个训练任务将会执行失败。举例来说，可以假设有Role-A和Role-B(多种角色也可以依此类推)，同时假设Role-A有M个，Role-B有N个。那么在分布式训练任务中，需要M+N个节点，每个节点都会有用于网络连接的“HO...

【技术保护点】
1.一种分布式机器学习任务启动方法，其特征在于，包括如下步骤：/n配置kubernetes Pod资源中的环境变量，所述环境变量包括所有机器学习节点的域名和端口信息；/n配置kubernetes Pod资源中容器的启动命令，所述启动命令将所述环境变量传入分布式机器学习任务启动脚本；/n根据所述环境变量和所述容器的启动命令创建kubernetes Pod资源，所述kubernetesPod资源中容器配置为执行所述启动命令。/n

【技术特征摘要】
1.一种分布式机器学习任务启动方法，其特征在于，包括如下步骤：
配置kubernetesPod资源中的环境变量，所述环境变量包括所有机器学习节点的域名和端口信息；
配置kubernetesPod资源中容器的启动命令，所述启动命令将所述环境变量传入分布式机器学习任务启动脚本；
根据所述环境变量和所述容器的启动命令创建kubernetesPod资源，所述kubernetesPod资源中容器配置为执行所述启动命令。

2.根据权利要求1所述的分布式机器学习任务启动方法，其特征在于，所述方法还包括基于kubernetes的域名机制生成所有机器学习节点的域名的步骤；
所述创建kubernetesPod资源时，创建的kubernetesPod资源与所述机器学习节点一一对应，且所述kubernetesPod资源的名称与所对应的机器学习节点的域名相同。

3.根据权利要求2所述的分布式机器学习任务启动方法，其特征在于，所述方法还包括如下步骤：
创建kubernetesService资源，创建的kubernetesService资源与所述机器学习节点一一对应，且所述kubernetesService资源的名称与所对应的机器学习节点的域名相同。

4.根据权利要求2所述的分布式机器学习任务启动方法，其特征在于，所述机器学习节点包括多个节点组，所述机器学习节点的域名包括节点组的识别号和节点在节点组中的识别号。

5.根据权利要求4所述的分布式机器学习任务启动方法，其特征在于，所述机器学习节点为基于TensorFlow模式的机器学习节点，所述机器学习节点根据不同角色分为多个节点组。

6.根据权利要求4所述的分布式机器学习任务启动方法，其特征在于，所述机器学习节点为基于MPI模式的机器学习节点，所述机器学习节点分为主节点组和从节点组；
所述主节点组中的机器学习节点所对应的kubernetesPod资源中包括所述环境变量和容器的启动命令；
所述从节点组中的机器学习节点所对应的kubernetesPod资源中不包括所述环境变量和容器的启动命...

【专利技术属性】
技术研发人员：李大超，何云龙，董荦，陈泽友，
申请(专利权)人：北京京东尚科信息技术有限公司，北京京东世纪贸易有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人