System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及计算机,尤其涉及一种模型训练方法、装置、电子设备及存储介质。
技术介绍
1、机器学习和深度学习模型训练系统主要采用集中式架构,将所有的模型训练任务集中在数据中心的服务器集群上完成。
2、目前,机器学习模型训练仍然依赖数据中心级别的专用算力资源,导致训练成本高昂且扩展受限。利用网络边缘闲置设备的算力资源进行分布式协同训练,是加速和扩展训练的有效途径。但是,分布式协同训练一般都存在难以调动节点参与并有效分配训练任务的问题。
技术实现思路
1、本申请实施例提供了一种模型训练方法、装置、电子设备及存储介质,既避免模型训练依赖数据中心服务器的专用算力资源导致训练成本高昂且扩展受限的问题,又充分发挥对等算力网络的优势,提高模型训练的效率和可扩展性。上述技术方案如下:
2、第一方面,本申请实施例提供了一种模型训练方法,上述方法应用于对等算力网络中的目标节点,上述方法包括:
3、在上述对等算力网络中广播目标模型对应的训练数据集,以使上述对等算力网络中多个节点对上述训练数据集进行协商分配,确定上述多个节点各自对应待训练的训练数据子集;上述训练数据集包括多个训练数据,上述训练数据子集包括至少一个上述训练数据;
4、基于上述目标节点对应分配到的目标训练数据子集对上述目标模型进行训练,得到上述目标模型对应的第一训练结果;
5、在上述对等算力网络中广播上述第一训练结果,以及接收上述对等算力网络中其他节点广播的第二训练结果;上述第二训练结果
6、基于上述第一训练结果和/或上述第二训练结果更新上述目标模型,得到上述目标模型对应的第一更新信息。
7、在一种可能的实现方式中,上述基于上述第一训练结果和/或上述第二训练结果更新上述目标模型,得到上述目标模型对应的第一更新信息之后,上述方法还包括:
8、在上述对等算力网络中广播上述第一更新信息,以及接收上述对等算力网络中其他节点广播的上述目标模型对应的第二更新信息;上述第二更新信息由上述对等算力网络中其他节点基于上述目标节点广播的上述第一训练结果和/或上述对等算力网络中其他节点对应训练得到的上述第二训练结果对上述目标模型进行更新得到;
9、基于上述第一更新信息和上述第二更新信息更新上述第一更新信息对应更新的目标模型,得到上述目标模型对应的目标更新信息。
10、在一种可能的实现方式中,上述目标模型为指定模型的子模型,上述子模型由服务器对上述指定模型进行拆分得到;
11、上述在上述对等算力网络中广播目标模型对应的训练数据集之前,上述方法还包括:
12、接收上述服务器发送的上述目标模型以及上述目标模型对应的训练数据集;
13、在上述对等算力网络中广播上述目标模型;
14、上述基于上述第一更新信息和上述第二更新信息更新上述第一更新信息对应更新的目标模型,得到上述目标模型对应的目标更新信息之后,上述方法还包括:
15、向上述服务器发送上述目标模型对应的目标更新信息,以使上述服务器对多个上述对等算力网络中的目标节点发送的上述目标更新信息进行聚合得到上述目标指定模型对应的指定更新信息。
16、在一种可能的实现方式中,上述基于上述第一训练结果和/或上述第二训练结果更新上述目标模型,得到上述目标模型对应的第一更新信息,包括:
17、判断上述目标节点的当前算力是否大于第一算力值;
18、若是,则基于上述第一训练结果和上述第二训练结果更新上述目标模型,得到上述目标模型对应的第一更新信息;
19、若否,则在上述当前算力大于第二算力值的情况下,基于上述第一训练结果更新上述目标模型,得到上述目标模型对应的第一更新信息;
20、其中,上述第二算力值小于上述第一算力值。
21、在一种可能的实现方式中,上述接收上述对等算力网络中其他节点广播的第二训练结果之后,上述基于上述第一训练结果和/或上述第二训练结果更新上述目标模型,得到上述目标模型对应的第一更新信息之前,上述方法还包括:
22、基于广播上述第二训练结果的其他节点对应的签名证书,对上述第二训练结果携带的签名进行验证,得到上述第二训练结果对应的签名验证结果;
23、若上述签名验证结果为验证通过,则执行上述基于上述第一训练结果和/或上述第二训练结果更新上述目标模型,得到上述目标模型对应的第一更新信息的步骤。
24、在一种可能的实现方式中,上述对等算力网络包括上述多个节点;上述多个节点已基于对应的签名证书通过签名校验;上述多个节点各自对应的通信协议版本相同;上述多个节点各自对应的当前算力均大于第三算力值。
25、在一种可能的实现方式中,上述基于上述目标节点对应分配到的目标训练数据子集对上述目标模型进行训练,得到上述目标模型对应的第一训练结果,包括:
26、基于上述目标节点对应分配到的目标训练数据子集中各训练数据的长度对上述目标模型当前待训练的参数维度进行调整;
27、基于上述目标节点对应分配到的目标训练数据子集对调整参数维度后的上述目标模型进行训练,得到上述目标模型对应的第一训练结果。
28、第二方面,本申请实施例提供了一种模型训练装置,上述模型训练装置应用于对等算力网络中的目标节点,上述模型训练装置包括:
29、第一广播模块,用于在上述对等算力网络中广播目标模型对应的训练数据集,以使上述对等算力网络中多个节点对上述训练数据集进行协商分配,确定上述多个节点各自对应待训练的训练数据子集;上述训练数据集包括多个训练数据,上述训练数据子集包括至少一个上述训练数据;
30、训练模块,用于基于上述目标节点对应分配到的目标训练数据子集对上述目标模型进行训练,得到上述目标模型对应的第一训练结果;
31、第二广播模块,用于在上述对等算力网络中广播上述第一训练结果;
32、第一接收模块,用于接收上述对等算力网络中其他节点广播的第二训练结果;上述第二训练结果由上述对等算力网络中其他节点基于对应分配到的训练数据子集对上述目标模型进行训练得到;
33、第一更新模块,用于基于上述第一训练结果和/或上述第二训练结果更新上述目标模型,得到上述目标模型对应的第一更新信息。
34、第三方面,本申请实施例提供了一种电子设备,包括:处理器以及存储器;
35、上述处理器与上述存储器相连;
36、上述存储器,用于存储可执行程序代码;
37、上述处理器通过读取上述存储器中存储的可执行程序代码来运行与上述可执行程序代码对应的程序,以用于执行本说明书实施例第一方面或第一方面的任意一种可能的实现方式提供的方法步骤。
38、第四方面,本说明书实施例提供了一种计算机存储介质,上述计算机存储介质存本文档来自技高网...
【技术保护点】
1.一种模型训练方法,其特征在于,所述方法应用于对等算力网络中的目标节点,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一训练结果和/或所述第二训练结果更新所述目标模型,得到所述目标模型对应的第一更新信息之后,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,所述目标模型为指定模型的子模型,所述子模型由服务器对所述指定模型进行拆分得到;
4.根据权利要求1所述的方法,其特征在于,所述基于所述第一训练结果和/或所述第二训练结果更新所述目标模型,得到所述目标模型对应的第一更新信息,包括:
5.根据权利要求1所述的方法,其特征在于,所述接收所述对等算力网络中其他节点广播的第二训练结果之后,所述基于所述第一训练结果和/或所述第二训练结果更新所述目标模型,得到所述目标模型对应的第一更新信息之前,所述方法还包括:
6.根据权利要求1所述的方法,其特征在于,所述对等算力网络包括所述多个节点;所述多个节点已基于对应的签名证书通过签名校验;所述多个节点各自对应的通信协议版本相同;所述多个节点各自对应的当
7.根据权利要求1所述的方法,其特征在于,所述基于所述目标节点对应分配到的目标训练数据子集对所述目标模型进行训练,得到所述目标模型对应的第一训练结果,包括:
8.一种模型训练装置,其特征在于,所述模型训练装置应用于对等算力网络中的目标节点,所述模型训练装置包括:
9.一种电子设备,其特征在于,包括:处理器和存储器;其中,
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1-7任一项的方法步骤。
...【技术特征摘要】
1.一种模型训练方法,其特征在于,所述方法应用于对等算力网络中的目标节点,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一训练结果和/或所述第二训练结果更新所述目标模型,得到所述目标模型对应的第一更新信息之后,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,所述目标模型为指定模型的子模型,所述子模型由服务器对所述指定模型进行拆分得到;
4.根据权利要求1所述的方法,其特征在于,所述基于所述第一训练结果和/或所述第二训练结果更新所述目标模型,得到所述目标模型对应的第一更新信息,包括:
5.根据权利要求1所述的方法,其特征在于,所述接收所述对等算力网络中其他节点广播的第二训练结果之后,所述基于所述第一训练结果和/或所述第二训练结果更新所述目标模型,得到所述目标模型对应的第一...
【专利技术属性】
技术研发人员:黄绍莽,杨玉奇,潘剑锋,
申请(专利权)人:三六零数字安全科技集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。