模型训练方法、装置、电子设备及存储介质制造方法及图纸

技术编号：41282976 阅读：5 留言：0更新日期：2024-05-11 09:32

本申请公开了一种模型训练方法、装置、设备及介质。其中，方法包括：服务器基于多个边缘节点各自对应的当前状态信息和历史任务执行状态信息确定目标边缘节点；将目标模型对应多个子任务中的第一子任务按照目标分配策略分配至目标边缘节点，使目标边缘节点基于第一子任务对应训练数据对第一子任务对应参数项进行训练得到对应执行结果；将多个子任务各自对应执行结果进行聚合得到目标模型的训练结果，基于训练结果更新目标模型，既利用已注册的目标边缘节点实现高效分布式模型训练，合理利用边缘设备算力，降低训练成本，又避免设备加入和退出导致模型训练中断影响模型训练速度的问题，确保模型训练过程中边缘设备热插拔的便利性和灵活性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机，尤其涉及一种模型训练方法、装置、电子设备及存储介质。

技术介绍

1、机器学习和深度学习模型训练系统主要采用集中式架构,将所有的模型训练任务集中在数据中心的服务器集群上完成。然而随着模型规模不断增大,这种集中的计算资源已越来越捉襟见肘。与此同时,分布在网络边缘的大量设备也具有强大的算力。但是，在集中式模型训练架构中边缘的设备大多数时间处于闲置状态，只能通过高算力高成本的服务器进行模型训练，而在分布式模型训练过程中往往会随着新设备的加入和旧设备的退出导致模型训练中断，影响模型训练速度。

2、目前，亟需一种能够合理利用网络边缘设备、降低运算成本、提高训练速度的模型训练方法。

技术实现思路

1、本申请实施例提供了一种模型训练方法、装置、电子设备及存储介质，既利用已注册的目标边缘节点实现高效分布式模型训练，合理利用边缘设备算力，降低训练成本，又避免设备加入和退出导致模型训练中断影响模型训练速度的问题，确保模型训练过程中边缘设备热插拔的便利性和灵活性。上述技术方案如下：

2、第一方面，本申请实施例提供了一种模型训练方法，上述方法应用于服务器，上述方法包括：

3、基于多个边缘节点各自对应的当前状态信息和历史任务执行状态信息确定上述多个边缘节点中的目标边缘节点；上述边缘节点包括在上述服务器中已注册的设备；上述目标边缘节点用于表征当前参与目标模型对应训练任务的边缘节点；上述训练任务包括多个子任务，上述子任务包括上述目标模型对应的参数项和训练数据；

4、将上述多个子任务中的第一子任务按照目标分配策略分配至上述目标边缘节点，以使上述目标边缘节点基于上述第一子任务对应的训练数据对上述第一子任务对应的参数项进行训练，得到上述第一子任务对应的执行结果；

5、接收上述目标边缘节点发送的上述第一子任务对应的执行结果；

6、按照预设规则，将上述多个子任务各自对应的执行结果进行聚合，得到上述目标模型对应的训练结果；

7、基于上述训练结果更新上述目标模型。

8、在一种可能的实现方式中，上述按照预设规则，将上述多个子任务各自对应的执行结果进行聚合，得到上述目标模型对应的训练结果之前，上述方法还包括：

9、若上述多个子任务中存在第二子任务，则基于上述第二子任务对应的训练数据对上述第二子任务对应的参数项进行训练，得到上述第二子任务对应的执行结果；上述第二子任务包括上述多个子任务中未分配至上述目标边缘节点的子任务，和/或，上述多个子任务中上述目标边缘节点执行失败的子任务。

10、在一种可能的实现方式中，上述将上述多个子任务中的第一子任务按照目标分配策略分配至上述目标边缘节点之前，上述方法还包括：

11、按照上述预设规则，将上述目标模型对应的训练任务进行拆分，得到上述多个子任务；上述多个子任务各自对应参数项的属性不同。

12、在一种可能的实现方式中，上述参数项的属性包括上述参数项在上述目标模型中所处的网络层级；上述训练任务包括上述目标模型和上述目标模型对应的训练数据集，上述训练数据集包括多个训练数据；

13、上述按照上述预设规则，将上述目标模型对应的训练任务进行拆分，得到上述多个子任务，包括：

14、根据上述目标模型的网络层级对上述目标模型进行拆分，得到多个子模型；上述子模型包括上述目标模型的至少一层网络以及上述至少一层网络对应的参数项；

15、基于上述多个子模型和上述训练数据集确定上述多个子任务。

16、在一种可能的实现方式中，上述参数项携带上述至少一层网络对应的网络层级标识；上述网络层级标识用于表征上述参数项对应上述目标模型中网络层级的训练顺序；

17、上述多个子任务按照各自对应参数项的训练顺序依次进行训练，上述子任务的执行结果基于对应上一个子任务的执行结果以及上述子任务对应的训练数据对上述子任务对应的参数项进行训练得到；上述上一个子任务对应参数项的第一训练顺序位于上述子任务对应参数项的第二训练顺序之前，且上述第一训练顺序与上述第二训练顺序连续。

18、在一种可能的实现方式中，上述参数项的属性包括上述参数项在上述目标模型中对应的维度；上述训练任务包括上述目标模型和上述目标模型对应的训练数据集，上述训练数据集包括多个训练数据；

19、上述按照上述预设规则，将上述目标模型对应的训练任务进行拆分，得到上述多个子任务，包括：

20、根据上述目标模型的参数维度对上述目标模型的参数进行拆分，得到多个参数项；上述参数项包括上述目标模型的至少一个维度的目标参数，上述参数项携带上述目标参数对应的维度标识；

21、基于上述多个参数项和上述训练数据集确定上述多个子任务。

22、在一种可能的实现方式中，上述基于上述多个参数项和上述训练数据集确定上述多个子任务，包括：

23、若上述训练数据集大于阈值，则将上述训练数据集进行拆分，得到多个训练数据子集；上述训练数据子集包括至少一个训练数据；

24、基于上述多个参数项和上述多个训练数据子集确定上述多个子任务。

25、在一种可能的实现方式中，上述当前状态信息包括上述边缘节点的当前网络状态和当前算力信息，上述历史任务执行状态信息包括上述边缘节点对应的历史任务执行状态和/或上述边缘节点对应的历史任务执行成功率；

26、上述将上述多个子任务中的第一子任务按照目标分配策略分配至上述目标边缘节点之前，上述方法还包括：

27、基于上述多个边缘节点各自对应的当前状态信息和历史任务执行状态信息确定上述多个子任务对应的目标分配策略；上述目标分配策略包括上述目标边缘节点对应待分配的子任务数量和/或子任务所需的算力；上述目标分配策略以及上述多个边缘节点中的目标边缘节点均随上述多个边缘节点各自对应的当前状态信息的变化而变化。

28、在一种可能的实现方式中，上述将上述多个子任务中的第一子任务按照目标分配策略分配至上述目标边缘节点之后，上述方法还包括：

29、若上述目标边缘节点由在线状态变为离线状态，或者接收到上述目标边缘节点发送的上述第一子任务对应的执行状态为执行失败，或者在预设时长内未获取到上述目标边缘节点发送的上述第一子任务对应的执行结果，则将上述第一子任务重新分配至另一个目标边缘节点，或基于上述第一子任务对应的训练数据对上述第一子任务对应的参数项进行训练，得到上述第一子任务对应的执行结果。

30、第二方面，本申请实施例提供了另一种模型训练方法，上述方法应用于多个边缘节点中的目标边缘节点，上述目标边缘节点由服务器基于上述多个边缘节点各自对应的当前状态信息和历史任务执行状态信息确定；上述边缘节点包括在上述服务器中已注册的设备，上述目标边缘节点用于表征当前参与目标模型对应训练任务的边缘节点；上述训练任务包括多个子任务，上述子任务包括上述目标模型对应的参数项和训练数据；上述方法包括：

本文档来自技高网...

【技术保护点】

1.一种模型训练方法，其特征在于，所述方法应用于服务器，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述按照预设规则，将所述多个子任务各自对应的执行结果进行聚合，得到所述目标模型对应的训练结果之前，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述多个子任务中的第一子任务按照目标分配策略分配至所述目标边缘节点之前，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述参数项的属性包括所述参数项在所述目标模型中所处的网络层级；所述训练任务包括所述目标模型和所述目标模型对应的训练数据集，所述训练数据集包括多个训练数据；

5.根据权利要求3所述的方法，其特征在于，所述参数项的属性包括所述参数项在所述目标模型中对应的维度；所述训练任务包括所述目标模型和所述目标模型对应的训练数据集，所述训练数据集包括多个训练数据；

6.一种模型训练方法，其特征在于，所述方法应用于多个边缘节点中的目标边缘节点，所述目标边缘节点由服务器基于所述多个边缘节点各自对应的当前状态信息和历史任务执行状态信息确定；所

7.一种服务器，其特征在于，所述服务器包括：

8.一种目标边缘节点，其特征在于，所述目标边缘节点由服务器基于多个边缘节点各自对应的当前状态信息和历史任务执行状态信息确定；所述边缘节点包括在所述服务器中已注册的设备，所述目标边缘节点用于表征当前参与目标模型对应训练任务的边缘节点；所述训练任务包括多个子任务，所述子任务包括所述目标模型对应的参数项和训练数据；所述目标边缘节点包括：

9.一种电子设备，其特征在于，包括：处理器和存储器；其中，

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1-6任一项的方法步骤。

...

【技术特征摘要】

1.一种模型训练方法，其特征在于，所述方法应用于服务器，所述方法包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述多个子任务中的第一子任务按照目标分配策略分配至所述目标边缘节点之前，所述方法还包括：

6.一种模型训练方法，其特征在于，所述方法应用于多个边缘节点中的目标边缘节点，所述目标边缘...

【专利技术属性】
技术研发人员：黄绍莽，杨玉奇，潘剑锋，
申请(专利权)人：三六零数字安全科技集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人