一种模型训练方法、装置和系统,以及预测方法和装置制造方法及图纸

技术编号:27433912 阅读:22 留言:0更新日期:2021-02-25 03:14
本发明专利技术实施例公开了一种模型训练方法、装置和系统,以及预测方法和装置,所述模型训练方法包括:第一设备根据模型训练作业中的模型训练所需要的数据的描述确定参与模型训练的第二设备,向第二设备发送所述模型训练作业中的部分或全部;第一设备执行所述模型训练作业中的第一模型训练代码以实现对于第j个训练步骤,当模型训练未结束时,第一设备向第二设备下发第j个训练步骤对应的模型参数;接收第二设备上传的第j个训练步骤对应的模型参数增量,根据第二设备上传的第j个训练步骤对应的模型参数增量计算第(j+1)个训练步骤对应的模型参数。本发明专利技术实施例适用于多种应用场景下的模型训练,减少了占用的带宽,降低了数据安全管理的难度。管理的难度。管理的难度。

【技术实现步骤摘要】
一种模型训练方法、装置和系统,以及预测方法和装置


[0001]本专利技术实施例涉及但不限于人工智能和通讯网络(Telecom Network)领域,尤指一种模型训练方法、装置和系统,以及预测方法和装置。

技术介绍

[0002]传统的网络智能化系统协作方式,是由操作支持系统(OSS,Operation Support System)从各个网元收集数据,在OSS上集中进行数据处理、模型训练,并将训练好的模型下发至各个网元执行推理。然而,这种方式存在若干问题。首先,网元产生的数据多种多样,各个不同设备厂商的网元设备也未有统一的数据,且有些数据设备厂商并未开放,造成了集中式收集、处理数据的困难。其次,网元产生的数据量巨大,收集数据将占用大量的回传带宽,增加了网络部署成本。最后,集中收集数据可能会带来用户隐私泄漏给第三方的风险,增加了数据安全管理的难度。也就是说,在某些应用场景(例如,设备厂商没有开放数据时)下则无法进行模型训练,收集模型训练所需要的数据时将占用较大的带宽,并且数据安全管理的难度较大。

技术实现思路

[0003]本专利技术实施例提供了一种模型训练方法、装置和系统,以及预测方法和装置,能够适用多种应用场景下的模型训练,减少占用的带宽,降低数据安全管理的难度。
[0004]本专利技术实施例提供了一种模型训练方法,包括:
[0005]第一设备根据模型训练作业中的模型训练所需要的数据的描述确定参与模型训练的第二设备,向第二设备发送所述模型训练作业中的部分或全部;
[0006]第一设备执行所述模型训练作业中的第一模型训练代码以实现对于第j个训练步骤,当模型训练未结束时,第一设备向第二设备下发第j个训练步骤对应的模型参数;接收第二设备上传的第j个训练步骤对应的模型参数增量,根据第二设备上传的第j个训练步骤对应的模型参数增量计算第(j+1)个训练步骤对应的模型参数。
[0007]本专利技术实施例提供了一种模型训练方法,包括:
[0008]第二设备接收第一设备发送的模型训练作业中的部分或全部;
[0009]对于第j个训练步骤,第二设备接收第一设备下发的第j个训练步骤对应的模型参数,根据所述第j个训练步骤对应的模型参数和所述模型训练作业中的部分或全部进行模型训练得到第j个训练步骤对应的模型参数增量,将第j个训练步骤对应的模型参数增量上传给第一设备。
[0010]本专利技术实施例提供了一种模型训练装置,包括处理器和计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令被所述处理器执行时,实现上述任一种模型训练方法。
[0011]本专利技术实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种模型训练方法的步骤。
[0012]本专利技术实施例提供了一种模型训练装置,包括:
[0013]模型训练作业下发模块,用于根据模型训练作业中的模型训练所需要的数据的描述确定参与模型训练的第二设备,向第二设备发送所述模型训练作业中的部分或全部;
[0014]第一模型训练模块,用于执行所述模型训练作业中的第一模型训练代码以实现对于第j个训练步骤,当模型训练未结束时,第一设备向第二设备下发第j个训练步骤对应的模型参数;接收第二设备上传的第j个训练步骤对应的模型参数增量,根据第二设备上传的第j个训练步骤对应的模型参数增量计算第(j+1)个训练步骤对应的模型参数。
[0015]本专利技术实施例提供了一种模型训练装置,包括:
[0016]模型训练作业接收模块,用于接收第一设备发送的模型训练作业中的部分或全部;
[0017]第二模型训练模块,用于对于第j个训练步骤,接收第一设备下发的第j个训练步骤对应的模型参数,根据所述第j个训练步骤对应的模型参数和所述模型训练作业中的部分或全部进行模型训练得到第j个训练步骤对应的模型参数增量,将第j个训练步骤对应的模型参数增量上传给第一设备。
[0018]本专利技术实施例提供了一种模型训练系统,包括:
[0019]第一设备,用于根据模型训练作业中的模型训练所需要的数据的描述确定参与模型训练的第二设备,向第二设备发送所述模型训练作业中的部分或全部;执行所述模型训练作业中的第一模型训练代码以实现对于第j个训练步骤,当模型训练未结束时,向第二设备下发第j个训练步骤对应的模型参数;接收第二设备上传的第j个训练步骤对应的模型参数增量,根据第二设备上传的第j个训练步骤对应的模型参数增量计算第(j+1)个训练步骤对应的模型参数;
[0020]第二设备,用于接收第一设备发送的模型训练作业中的部分或全部;对于第j个训练步骤,接收第一设备下发的第j个训练步骤对应的模型参数,根据所述第j个训练步骤对应的模型参数和所述模型训练作业中的部分或全部进行模型训练得到第j个训练步骤对应的模型参数增量,将第j个训练步骤对应的模型参数增量上传给第一设备。
[0021]本专利技术实施例提供了一种预测方法,包括:
[0022]获取进行预测所需要的数据,从所述进行预测所需要的数据中提取关键特征;
[0023]将所述关键特征输入上述任一种模型训练方法中,训练好的模型参数对应的模型中,输出预测值。
[0024]本专利技术实施例提供了一种预测装置,包括处理器和计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令被所述处理器执行时,实现上述任一种预测方法。
[0025]本专利技术实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种预测方法的步骤。
[0026]本专利技术实施例提供了一种预测装置,包括:
[0027]数据获取模块,用于获取进行预测所需要的数据;
[0028]关键特征提取模块,用于从所述进行预测所需要的数据中提取关键特征;
[0029]预测模块,用于将所述关键特征输入上述任一种模型训练方法中,训练好的模型参数对应的模型中,输出预测值。
[0030]本专利技术实施例包括:第一设备根据模型训练作业中的模型训练所需要的数据的描述确定参与模型训练的第二设备,向第二设备发送所述模型训练作业中的部分或全部;执行所述模型训练作业中的第一模型训练代码以实现对于第j个训练步骤,当模型训练未结束时,第一设备向第二设备下发第j个训练步骤对应的模型参数;接收第二设备上传的第j个训练步骤对应的模型参数增量,根据第二设备上传的第j个训练步骤对应的模型参数增量计算第(j+1)个训练步骤对应的模型参数。本专利技术实施例将模型训练作业下发给第二设备进行分布式模型训练后,再在第一设备中对第二设备的模型训练结果进行汇总,避免了在第一设备和第二设备之间传输训练数据,适用于多种应用场景(例如,设备厂商没有开放数据时)下的模型训练,减少了占用的带宽,降低了数据安全管理的难度,同时,充分利用了多个第二设备的并行计算能力,实现了模型训练系统的可伸缩性。
[0031]本专利技术实施例的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,包括:第一设备根据模型训练作业中的模型训练所需要的数据的描述确定参与模型训练的第二设备,向第二设备发送所述模型训练作业中的部分或全部;第一设备执行所述模型训练作业中的第一模型训练代码以实现对于第j个训练步骤,当模型训练未结束时,第一设备向第二设备下发第j个训练步骤对应的模型参数;接收第二设备上传的第j个训练步骤对应的模型参数增量,根据第二设备上传的第j个训练步骤对应的模型参数增量计算第(j+1)个训练步骤对应的模型参数。2.根据权利要求1所述的方法,其特征在于,当模型训练结束时,该方法还包括以下任意一个或多个:所述第一设备向所述第二设备发送停止模型训练消息;所述第一设备不向所述第二设备下发第j个训练步骤对应的模型参数。3.根据权利要求1所述的方法,其特征在于,所述第一设备根据所述模型训练所需要的数据的描述确定参与模型训练的第二设备之前,该方法还包括:所述第一设备接收模型训练作业。4.根据权利要求1~3任意一项所述的方法,其特征在于,其中,所述模型训练作业包括:模型训练所需要的数据的描述、数据处理代码、第一模型训练代码和第二模型训练代码。5.根据权利要求1~3任意一项所述的方法,其特征在于,其中,所述根据第二设备上传的第j个训练步骤对应的模型参数增量计算第(j+1)个训练步骤对应的模型参数包括:根据所述第二设备上传的第j个训练步骤对应的模型参数增量计算第j个训练步骤对应的全局模型参数增量;根据所述第j个训练步骤对应的全局模型参数增量计算所述第(j+1)个训练步骤对应的模型参数。6.根据权利要求5所述的方法,其特征在于,所述根据第二设备上传的第j个训练步骤对应的模型参数增量计算第j个训练步骤对应的全局模型参数增量之前,该方法还包括:所述第一设备接收所述第二设备上传的第j个训练步骤使用的训练数据个数;所述根据第二设备上传的第j个训练步骤对应的模型参数增量计算第j个训练步骤对应的全局模型参数增量包括:按照公式计算所述第j个训练步骤对应的全局模型参数增量;其中,为所述第j个训练步骤对应的全局模型参数增量,#D
ij
为第i个第二设备上传的第j个训练步骤对应的训练数据个数,N为参与模型训练的第二设备的数量,ΔW
ij
为第i个第二设备上传的第j个训练步骤对应的模型参数增量。7.根据权利要求5所述的方法,其特征在于,其中,所述根据第j个训练步骤对应的全局模型参数增量计算所述第(j+1)个训练步骤对应的模型参数包括:按照公式计算所述第(j+1)个训练步骤对应的模型参数;其中,W
j+1
为所述第(j+1)个训练步骤对应的模型参数,W
j
为所述第j个训练步骤对应的
模型参数,α为学习速率,为所述第j个训练步骤对应的全局模型参数增量。8.根据权利要求1~3任意一项所述的方法,其特征在于,其中,判断模型训练是否结束包括以下任意一个或多个:当j大于或等于最大训练步骤数时,确定模型训练结束;当j小于最大训练步骤数时,确定模型训练未结束。9.根据权利要求1~3任意一项所述的方法,其特征在于,其中,判断模型训练是否结束包括以下任意一个或多个:当第(j-m+1)个训练步骤到第j个训练步骤中任意两个相邻的训练步骤对应的损失函数的平均值之差均小于或等于预设阈值时,确定模型训练结束;当第(j-m+1)个训练步骤到第j个训练步骤中至少存在两个相邻的训练步骤对应的损失函数的平均值之差大于预设阈值时,确定模型训练未结束。10.根据权利要求9所述的方法,其特征在于,其中,按照公式计算所述第j个训练步骤对应的损失函数的平均值;其中,为所述第j个训练步骤对应的损失函数的平均值,#D
ij
为第i个第二设备上传的第j个训练步骤对应的训练数据个数,N为参与模型训练的第二设备的数量,L
ij
为所述第i个设备上传的第j个训练步骤对应的损失函数值。11.一种模型训练方法,包括:第二设备接收第一设备发送的模型训练作业中的部分或全部;对于第j个训练步骤,第二设备接收第一设备下发的第j个训练步骤对应的模型参数,根据所述第j个训练步骤对应的模型参数和所述模型训练作业中的部分或全部进行模型训练得到第j个训练步骤对应的模型参数增量,将第j个训练步骤对应的模型参数增量上传给第一设备。12.根据权利要求11所述的方法,其特征在于,该方法还包括:所述第二设备接收第一设备发送的停止模型训练消息。13.根据权利要求11或12所述的方法,其特征在于,其中,所述模型训练作业包括:模型训练所需要的数据的描述、数据处理代码、第一模型训练代码和第二模型训练代码;所述根据第j个训练步骤对应的模型参数和所述模型训练作业中的部分或全部进行模型训练得到第j个训练步骤对应的模型参数增量包括:执行所述数...

【专利技术属性】
技术研发人员:韩炳涛王建伟孙宗英
申请(专利权)人:中兴通讯股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1