【技术实现步骤摘要】
一种模型训练方法、装置和系统,以及预测方法和装置
[0001]本专利技术实施例涉及但不限于人工智能和通讯网络(Telecom Network)领域,尤指一种模型训练方法、装置和系统,以及预测方法和装置。
技术介绍
[0002]传统的网络智能化系统协作方式,是由操作支持系统(OSS,Operation Support System)从各个网元收集数据,在OSS上集中进行数据处理、模型训练,并将训练好的模型下发至各个网元执行推理。然而,这种方式存在若干问题。首先,网元产生的数据多种多样,各个不同设备厂商的网元设备也未有统一的数据,且有些数据设备厂商并未开放,造成了集中式收集、处理数据的困难。其次,网元产生的数据量巨大,收集数据将占用大量的回传带宽,增加了网络部署成本。最后,集中收集数据可能会带来用户隐私泄漏给第三方的风险,增加了数据安全管理的难度。也就是说,在某些应用场景(例如,设备厂商没有开放数据时)下则无法进行模型训练,收集模型训练所需要的数据时将占用较大的带宽,并且数据安全管理的难度较大。
技术实现思路
[0003]本专利技术实施例提供了一种模型训练方法、装置和系统,以及预测方法和装置,能够适用多种应用场景下的模型训练,减少占用的带宽,降低数据安全管理的难度。
[0004]本专利技术实施例提供了一种模型训练方法,包括:
[0005]第一设备根据模型训练作业中的模型训练所需要的数据的描述确定参与模型训练的第二设备,向第二设备发送所述模型训练作业中的部分或全部;
[0006]第一 ...
【技术保护点】
【技术特征摘要】
1.一种模型训练方法,包括:第一设备根据模型训练作业中的模型训练所需要的数据的描述确定参与模型训练的第二设备,向第二设备发送所述模型训练作业中的部分或全部;第一设备执行所述模型训练作业中的第一模型训练代码以实现对于第j个训练步骤,当模型训练未结束时,第一设备向第二设备下发第j个训练步骤对应的模型参数;接收第二设备上传的第j个训练步骤对应的模型参数增量,根据第二设备上传的第j个训练步骤对应的模型参数增量计算第(j+1)个训练步骤对应的模型参数。2.根据权利要求1所述的方法,其特征在于,当模型训练结束时,该方法还包括以下任意一个或多个:所述第一设备向所述第二设备发送停止模型训练消息;所述第一设备不向所述第二设备下发第j个训练步骤对应的模型参数。3.根据权利要求1所述的方法,其特征在于,所述第一设备根据所述模型训练所需要的数据的描述确定参与模型训练的第二设备之前,该方法还包括:所述第一设备接收模型训练作业。4.根据权利要求1~3任意一项所述的方法,其特征在于,其中,所述模型训练作业包括:模型训练所需要的数据的描述、数据处理代码、第一模型训练代码和第二模型训练代码。5.根据权利要求1~3任意一项所述的方法,其特征在于,其中,所述根据第二设备上传的第j个训练步骤对应的模型参数增量计算第(j+1)个训练步骤对应的模型参数包括:根据所述第二设备上传的第j个训练步骤对应的模型参数增量计算第j个训练步骤对应的全局模型参数增量;根据所述第j个训练步骤对应的全局模型参数增量计算所述第(j+1)个训练步骤对应的模型参数。6.根据权利要求5所述的方法,其特征在于,所述根据第二设备上传的第j个训练步骤对应的模型参数增量计算第j个训练步骤对应的全局模型参数增量之前,该方法还包括:所述第一设备接收所述第二设备上传的第j个训练步骤使用的训练数据个数;所述根据第二设备上传的第j个训练步骤对应的模型参数增量计算第j个训练步骤对应的全局模型参数增量包括:按照公式计算所述第j个训练步骤对应的全局模型参数增量;其中,为所述第j个训练步骤对应的全局模型参数增量,#D
ij
为第i个第二设备上传的第j个训练步骤对应的训练数据个数,N为参与模型训练的第二设备的数量,ΔW
ij
为第i个第二设备上传的第j个训练步骤对应的模型参数增量。7.根据权利要求5所述的方法,其特征在于,其中,所述根据第j个训练步骤对应的全局模型参数增量计算所述第(j+1)个训练步骤对应的模型参数包括:按照公式计算所述第(j+1)个训练步骤对应的模型参数;其中,W
j+1
为所述第(j+1)个训练步骤对应的模型参数,W
j
为所述第j个训练步骤对应的
模型参数,α为学习速率,为所述第j个训练步骤对应的全局模型参数增量。8.根据权利要求1~3任意一项所述的方法,其特征在于,其中,判断模型训练是否结束包括以下任意一个或多个:当j大于或等于最大训练步骤数时,确定模型训练结束;当j小于最大训练步骤数时,确定模型训练未结束。9.根据权利要求1~3任意一项所述的方法,其特征在于,其中,判断模型训练是否结束包括以下任意一个或多个:当第(j-m+1)个训练步骤到第j个训练步骤中任意两个相邻的训练步骤对应的损失函数的平均值之差均小于或等于预设阈值时,确定模型训练结束;当第(j-m+1)个训练步骤到第j个训练步骤中至少存在两个相邻的训练步骤对应的损失函数的平均值之差大于预设阈值时,确定模型训练未结束。10.根据权利要求9所述的方法,其特征在于,其中,按照公式计算所述第j个训练步骤对应的损失函数的平均值;其中,为所述第j个训练步骤对应的损失函数的平均值,#D
ij
为第i个第二设备上传的第j个训练步骤对应的训练数据个数,N为参与模型训练的第二设备的数量,L
ij
为所述第i个设备上传的第j个训练步骤对应的损失函数值。11.一种模型训练方法,包括:第二设备接收第一设备发送的模型训练作业中的部分或全部;对于第j个训练步骤,第二设备接收第一设备下发的第j个训练步骤对应的模型参数,根据所述第j个训练步骤对应的模型参数和所述模型训练作业中的部分或全部进行模型训练得到第j个训练步骤对应的模型参数增量,将第j个训练步骤对应的模型参数增量上传给第一设备。12.根据权利要求11所述的方法,其特征在于,该方法还包括:所述第二设备接收第一设备发送的停止模型训练消息。13.根据权利要求11或12所述的方法,其特征在于,其中,所述模型训练作业包括:模型训练所需要的数据的描述、数据处理代码、第一模型训练代码和第二模型训练代码;所述根据第j个训练步骤对应的模型参数和所述模型训练作业中的部分或全部进行模型训练得到第j个训练步骤对应的模型参数增量包括:执行所述数...
【专利技术属性】
技术研发人员:韩炳涛,王建伟,孙宗英,
申请(专利权)人:中兴通讯股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。