一种代码的分布式训练方法、装置及设备制造方法及图纸

技术编号：38896922 阅读：16 留言：0更新日期：2023-09-22 14:18

本发明专利技术提供一种代码的分布式训练方法、装置及设备，其中，代码的分布式训练方法包括：通过预设应用获取用户编写的代码和训练指令；根据所述训练指令，获得用户指定的用于训练所述代码的目标资源；根据所述目标资源，创建资源对象；根据所述资源对象调度目标训练容器进行代码训练，得到训练结果；将所述训练结果通过所述应用返回用户。本发明专利技术的方案无需对代码进行侵入式修改，可以实现将数据与计算隔离，有效提高资源利用率，交互性强。交互性强。交互性强。

全部详细技术资料下载

【技术实现步骤摘要】
一种代码的分布式训练方法、装置及设备

[0001]本专利技术涉及计算机
，特别是指一种代码的分布式训练方法、装置及设备。

技术介绍

[0002]随着机器学习和云计算的迅猛发展，传统的分布式训练方法已经不能满足现有的需求，现有的分布式训练需要用户编写Kubeflow资源对象文件，需要对训练代码进行侵入式的修改。无法使用户和代码之间拥有较好的交互，代码的运行与结果的读取，都需要用户具备相关知识。另外，由于不同存储系统拥有自己的调用接口，系统分布式训练在读取不同存储系统上的数据集时，需要去修改大量的代码。同时，分布式训练读取远程存储可能会导致I/O瓶颈，使得资源得不到充分利用。

技术实现思路

[0003]本专利技术提供一种代码的分布式训练方法、装置及设备，提高资源利用率以及数据交互性。
[0004]为解决上述技术问题，本专利技术的技术方案如下：
[0005]一种代码的分布式训练方法，所述方法包括：
[0006]获取用户编写的代码和训练指令；
[0007]根据所述训练指令，获得用户指定的用于训练所述代码的目标资源；
[0008]根据所述目标资源，创建资源对象；
[0009]调度所述资源对象中的目标训练容器进行代码训练，得到训练结果；
[0010]将所述训练结果通过所述应用返回用户。
[0011]可选的，获取用户编写的代码和训练指令，包括：
[0012]接收JupyterHub应用的内核发送的用户编写的代码和训练指令。
[00...

【技术保护点】

【技术特征摘要】
1.一种代码的分布式训练方法，其特征在于，所述方法包括：获取用户编写的代码和训练指令；根据所述训练指令，获得用户指定的用于训练所述代码的目标资源；根据所述目标资源，创建资源对象；调度所述资源对象中的目标训练容器进行代码训练，得到训练结果；将所述训练结果通过应用返回用户。2.根据权利要求1所述的代码的分布式训练方法，其特征在于，获取用户编写的代码和训练指令，包括：接收JupyterHub应用的内核发送的用户编写的代码和训练指令。3.根据权利要求1所述的代码的分布式训练方法，其特征在于，根据所述训练指令，获得用户指定的用于训练所述代码的目标资源，包括：对所述训练指令进行解析，获得解析结果；若所述解析结果中包括有用户指定的用于训练所述代码的训练框架与训练容器数量，将所述用户指定的训练框架与训练容器数量作为所述目标资源；若所述解析结果中没有用户指定的训练框架与训练容器数量，获得默认的训练框架和训练容器数量作为所述目标资源。4.根据权利要求3所述的代码的分布式训练方法，其特征在于，还包括：获取所述训练指令中的数据编排请求；根据所述数据编排请求，与虚拟的分布式存储系统交互，将目标数据挂载于所述虚拟的分布式存储系统，所述虚拟的分布式存储系统中架构在底层分布式文件系统和上层分布式计算框架之间的一个中间件。5.根据权利要求4所述的代码的分布式训练方法，其特征在于，根据所述目标资源，创建资源对象，包括：获取所述虚拟...

【专利技术属性】
技术研发人员：闫晓瑞，武文博，王斌，冯俊兰，邓超，
申请(专利权)人：中国移动通信集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人