模型训练方法、装置、设备及存储介质制造方法及图纸

技术编号:38937527 阅读:12 留言:0更新日期:2023-09-25 09:38
本申请公开了一种模型训练方法、装置、设备及存储介质。第一客户端将第一客户端中的第一任务对应的有标签数据输入第一模型中的第一骨干网络得到第一特征,第一骨干网络的第一网络权重参考了第一结果和第二结果,第一结果是第一客户端使用第一客户端中的无标签数据对第一骨干网络进行训练的训练结果,第二结果是第二客户端使用第二客户端中的无标签数据对第二模型中的第二骨干网络进行训练的训练结果,第一模型用于执行第一任务,第二模型用于执行第二任务,第一任务和第二任务是不同的任务;第一客户端通过第一特征对第一模型中的第一任务网络进行训练。本申请实施例可以充分利用不同客户端的本地数据进行模型训练,提升模型效果。模型效果。模型效果。

【技术实现步骤摘要】
模型训练方法、装置、设备及存储介质


[0001]本申请涉及机器学习
,尤其涉及一种模型训练方法、装置、设备及存储介质。

技术介绍

[0002]随着人工智能技术的发展,为了解决数据孤岛的问题,人们提出了联邦学习(federatedlearning)的概念。联邦学习本质上是一种分布式机器学习技术,它的目标是在保障数据隐私安全的前提下让多个参与方协作进行机器学习模型的训练,以提升模型的效果。
[0003]目前的联邦学习方法只支持对不同客户的相同任务进行联合建模,因此,对于具有不同任务需求的客户来说,他们是无法利用现有的联邦学习方法进行联合建模的,导致这些客户的本地数据无法得到很好地利用。

技术实现思路

[0004]为了解决现有技术中存在的上述问题,本申请实施例中提供一种模型训练方法、装置、设备及存储介质,支持为不同客户的不同任务进行联合建模,拓宽了联邦学习的应用场景,可以充分利用各个客户本地的数据进行模型训练,提升模型效果。
[0005]第一方面,本申请提供了一种模型训练方法,用于第一客户端,该方法包括:将第一客户端中的第一任务对应的有标签数据输入第一模型中的第一骨干网络,得到第一特征,其中,第一骨干网络的第一网络权重参考了第一结果和第二结果,第一结果是第一客户端使用第一客户端中的无标签数据对第一骨干网络进行训练的训练结果,第二结果是第二客户端使用第二客户端中的无标签数据对第二模型中的第二骨干网络进行训练的训练结果,第一模型用于执行第一任务,第二模型用于执行第二任务,第一任务和第二任务是不同的任务;通过第一特征对第一模型中的第一任务网络进行训练。
[0006]可以看出,上述第一客户端的任务需求包括第一任务,并且第一客户端上存在第一任务对应的有标签数据和无标签数据;第一客户端中的第一模型可用于执行该第一任务,它包括第一骨干网络和第一任务网络,其中,第一骨干网络用于特征提取,第一骨干网络的输出作为第一任务网络的输入,第一任务网络与第一任务对应,用于基于第一骨干网络输入的特征输出第一任务的结果。类似的,第二客户端的任务需求包括第二任务,并且第二客户端上存在无标签数据;第二客户端中的第二模型可用于执行第二任务,第二模型包括第二骨干网络,第二骨干网络也用于特征提取。需要说明的是,第二骨干网络与第一骨干网络的结构相同,但二者的网络权重不一定相同。
[0007]虽然第一客户端和第二客户端的任务需求不同,但是它们本地都有一个骨干网络(分别是第一骨干网络和第二骨干网络),它们可以先分别利用其本地的无标签数据对本地的骨干网络进行自监督训练,再将各自得到的训练结果(分别是第一结果和第二结果)作为第一骨干网络的第一网络权重的参考。比如,可以将上述第一结果和第二结果进行聚合得
到该第一网络权重。
[0008]可以理解的是,因为第一骨干网络的第一网络权重综合了第一客户端的上述第一结果和第二客户端的上述第二结果,所以第一网络权重可理解为是第一客户端和第二客户端共同训练的成果。这样的第一骨干网络(其网络权重为第一网络权重)的特征提取能力会比较好,进而可以加快第一模型中的第一任务网络的训练速度。
[0009]在传统的横向联邦学习方法中只支持相同任务的联合建模,即任务需求相同的多个客户端才能一起参与横向联邦学习,它们的目标模型是一样的,该目标模型用于执行该任务。如果多个客户端的任务需求不同,则它们的目标模型也不相同(各客户端的目标模型分别用于执行该客户端需求的任务),因此它们无法通过这种传统的横向联邦学习进行模型训练,导致各个客户端的本地数据得不到充分利用。
[0010]不同于传统的横向联邦学习方法,本方案支持为不同客户端的不同任务进行联合建模,拓宽了联邦学习的应用场景,从而能够将各个客户端的本地数据充分利用起来。在本方案中,各个客户端的目标模型均采用骨干网络和任务网络(与该客户端需求的任务对应)两部分来构成,其中,骨干网络用于特征提取,任务网络基于骨干网络提取的特征输出对应任务的结果。此时骨干网络作为各客户端的目标模型中的公共部分,便可以基于传统的横向联邦学习方法进行联合训练:各个客户端分别利用其本地的无标签数据对本地的骨干网络进行自监督训练,各客户端得到的训练结果由服务端聚合后再下发给各客户端,以更新各客户端本地的骨干网络;经过上面多次循环便可以得到训练好的骨干网络,这个训练好的骨干网络对所有客户端都有益。之后,各客户端再根据训练好的骨干网络及其本地的有标签数据对任务网络进行训练。可以理解的是,上述训练好的骨干网络相当于学习了多个客户端的本地数据的知识,所以特征提取效果较好,进而可以加快任务网络的训练速度,仅用少量有标签数据即可。
[0011]基于第一方面,在可能的实施例中,第一客户端中的无标签数据包括第一任务对应的无标签数据,第二客户端中的无标签数据包括第二任务对应的无标签数据。
[0012]也就是说,第一客户端可以利用第一客户端中的第一任务对应的无标签数据对第一骨干网络进行训练,而第二客户端可以利用第二客户端中的第二任务对应的无标签数据对第二骨干网络进行训练。由于第一骨干网络的第一网络权重参考了第一客户端和第二客户端的上述训练结果,相当于利用了不同客户端上的不同任务对应的无标签数据对第一骨干网络进行了训练,能够提升第一骨干网络的特征提取能力。
[0013]基于第一方面,在可能的实施例中,第一骨干网络的第一网络权重是根据以下两种训练结果聚合得到的:使用第一客户端中的无标签数据对第一骨干网络进行训练的训练结果;使用第二客户端中的无标签数据对第二模型中的第二骨干网络进行训练的训练结果。
[0014]也就是说,可以将第一客户端使用本地的无标签数据对第一骨干网络进行训练得到的结果以及第二客户端使用本地的无标签数据对第二骨干网络进行训练得到的结果进行聚合,从而得到第一骨干网络的第一网络权重。
[0015]基于第一方面,在可能的实施例中,所述通过第一特征对第一模型中的第一任务网络进行训练,包括:将第一特征输入第一模型中的第一任务网络,得到预测值;根据该预测值和第一客户端中的第一任务对应的有标签数据更新第一任务网络,得到第二网络权
重。
[0016]也就是说,第一客户端将第一骨干网络输出的第一特征输入第一任务网络,可以得到相应的预测值,然后将该预测值与之前输入的有标签数据的标签(真实值)进行比较,计算损失函数值,再根据损失函数值对第一任务网络的网络权重进行更新,从而得到第二网络权重。应理解,这里只更新了第一模型中的第一任务网络,没有更新第一模型中的第一骨干网络,第一骨干网络的网络权重固定为第一网络权重。
[0017]基于第一方面,在可能的实施例中,在得到第二网络权重之后,该方法还包括:将第二网络权重发送给服务端;接收服务端发送的第三网络权重,其中,第三网络权重参考了第二网络权重和第三结果,第三结果是第三客户端使用第三客户端中的第一任务对应的有标签数据对第三模型进行训练的训练结果,第三模型包括第三骨干网络和第二任务网络,第三模型用于执行第一任务;使用第本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,用于第一客户端,所述方法包括:将第一客户端中的第一任务对应的有标签数据输入第一模型中的第一骨干网络,得到第一特征,其中,所述第一骨干网络的第一网络权重参考了第一结果和第二结果,所述第一结果是所述第一客户端使用所述第一客户端中的无标签数据对所述第一骨干网络进行训练的训练结果,所述第二结果是第二客户端使用所述第二客户端中的无标签数据对第二模型中的第二骨干网络进行训练的训练结果,所述第一模型用于执行所述第一任务,所述第二模型用于执行第二任务,所述第一任务和所述第二任务是不同的任务;通过所述第一特征对所述第一模型中的第一任务网络进行训练。2.根据权利要求1所述的方法,其特征在于,所述第一客户端中的无标签数据包括所述第一任务对应的无标签数据,所述第二客户端中的无标签数据包括所述第二任务对应的无标签数据。3.根据权利要求1或2所述的方法,其特征在于,所述通过所述第一特征对所述第一模型中的第一任务网络进行训练,包括:将所述第一特征输入所述第一模型中的所述第一任务网络,得到预测值;根据所述预测值和所述第一客户端中的所述第一任务对应的有标签数据更新所述第一任务网络,得到第二网络权重。4.根据权利要求3所述的方法,其特征在于,在所述得到第二网络权重之后,所述方法还包括:将所述第二网络权重发送给服务端;接收所述服务端发送的第三网络权重,其中,所述第三网络权重参考了所述第二网络权重和第三结果,所述第三结果是第三客户端使用所述第三客户端中的所述第一任务对应的有标签数据对第三模型进行训练的训练结果,所述第三模型包括第三骨干网络和第二任务网络,所述第三模型用于执行所述第一任务;使用所述第三网络权重更新所述第一任务网络。5.一种模型训练方法,其特征在于,用于服务端,所述方法包括:将服务端中的第一任务对应的有标签数据输入第一模型中的第一骨干网络,得到第一特征,其中,所述第一骨干网络的第一网络权重参考了第一结果和第二结果,所述第一结果是第一客户端使用所述第一客户端中的无标签数据对第二模型中的第二骨干网络进行训练的训练结果,所述第二结果是第二客户端使用所述第二客户端中的无标签数据对第三模型中的第三骨干网络进行训练的训练结果,所述第二模型用于执行所述第一任务,所述第三模型用于执行第二任务,所述第一任务和所述第二任务是不同的任务;通过所述第一特征对所述第一模型中的第一任务网络进行训练。6.根据权利要求5所述的方法,其特征在于,所述第一客户端中的无标签数据包括所述第一任务对应的无标签数据,所述第二客户端中的无标签数据包括所述第二任务对应的无标签数据。7.根据权利要求5或6所述的方法,其特征在于,所述通过所述第一特征对所述第一模型中的第一任务网络进行训练,包括:将所述第一特征输入所述第一模型中的所述第一任务网络,得到预测值;根据所述预测值和所述服务端中的所述第一任务对应的有标签数据更新所述第一任
务网络,得到第二网络权重。8.根据权利要求7所述的方法,其特征在于,所述方法还包括:接收所述第一客户端发送的第三网络权重,其中,所述第三网络权重是所述第一客户端使用所述第一客户端中的所述第一任务对应的有标签数据对所述第二模型进行训练的训练结果,所述第二模型包括所述第二骨干网络和第二任务网络;根据所述第三网络权重和所述第二网络权重聚合得到第四网络权重,使用所述第四网络权重更新所述第一任务网络。9.一种装置,其特征在于,所述装置包括:处理模块,用于将所述装置中的第一任务对应的有标签数据输入第一模型中的第一骨干网络,得到第一特征,其中,所述第一骨干网络的第一网络权重参考了第一结果和第二结果,所述第一结果是所述装置使用所述装置中的无标签数据对所述第一骨干网络进行训练的训练结果,所述第二结果是第...

【专利技术属性】
技术研发人员:王小辉张亚斌吴学文韩承志唐强陈安伟
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1