模型训练方法和装置制造方法及图纸

技术编号:35807661 阅读:8 留言:0更新日期:2022-12-03 13:26
本申请提供了一种模型训练方法和装置。该方法包括:接收来自N个终端设备的表征结果,每个终端设备的表征结果是每个终端设备利用第一子模型对每个终端设备的本地数据进行第一处理得到的,第一处理包括提取目标任务对应的目标特征,第一子模型包含于第一模型中,第一模型是云端设备根据目标任务利用第三数据集训练得到的,第三数据集包括的数据的特征与每个终端设备的数据的特征相同,第三数据集包括的数据不属于每个终端设备的本地数据,N为大于等于2的正整数;利用N个终端设备的表征结果和目标任务对第二子模型进行训练,得到第三子模型,第二子模型包含于第一模型中。该方法可以提高用户隐私数据的安全性和降低系统开销。以提高用户隐私数据的安全性和降低系统开销。以提高用户隐私数据的安全性和降低系统开销。

【技术实现步骤摘要】
模型训练方法和装置


[0001]本申请涉及人工智能领域,并且更具体地,涉及一种模型训练方法和装置。

技术介绍

[0002]随着人工智能(artificial intelligence,AI)技术和互联网产业的发展,数据隐私和安全 越来越受到重视。联邦学习(federated learning,FL)正是在满足数据隐私和安全的前提 下,进行数据使用和训练模型的方法。
[0003]现有的联邦学习架构和方法需要假设所有的终端在包含了不同数据的同时拥有相同 的模型结构,并设置了一个中央服务器通过不断收集、整合、分发这些模型,使参与学习 的各个终端最终能够获得一个效果最好的联邦模型,我们称这一类方法为参数服务器架构 下的联邦学习方法。参数服务器架构能够较好地解决一部分比较理想的联邦学习场景,同 时由于终端和中央服务器间传输的是模型参数而非数据本身,能够满足一定的数据隐私要 求。但是,参数服务器架构对于模型结构和数据都有很多的限制,需要数据能够完全对齐、 需要模型结构完全一致,使得能够应用的场景非常局限;而且即使能够应用的时候,由于 终端之间的模型参数差异和数据差异,导致需要很多次的训练才能得到一个满足需求的联 邦模型,这无疑带来大量的运算资源的消耗,且需要很长的训练时间;同时由于每一轮次 的训练过程都需要多次传输模型,因此该架构需要更多次数的数据传输,这会带来很高的 传输带宽成本。此外,上述各种可能原因都会使得现有的联邦学习方法的学习质量较低, 进一步导致得到的训练模型的识别准确度较低。

技术实现思路

[0004]本申请提供一种模型训练方法和装置。该方法在保证得到的训练模型具有较高的识别 准确度的前提下,可以提高用户隐私数据的安全性和降低系统开销。
[0005]第一方面,提供了一种模型训练方法,该方法包括:
[0006]接收来自N个终端设备的表征结果,其中,每个终端设备的表征结果是该每个终端设 备利用第一子模型对该每个终端设备的本地数据进行第一处理得到的,该第一处理包括提 取目标任务对应的目标特征,该第一子模型包含于第一模型中,该第一模型是云端设备根 据该目标任务利用第三数据集训练得到的,该第三数据集包括的数据的特征与该N个终端 设备的数据的特征相同,且该第三数据集包括的数据不属于该N个终端设备的本地数据, N为大于等于2的正整数;
[0007]利用该N个终端设备的表征结果和该目标任务对第二子模型进行训练,得到第三子模 型,其中,该第二子模型包含于该第一模型中,该第二子模型的输入包括该第一子模型的 输出。
[0008]上述方法的执行主体是云端设备,对云端设备不作具体限定,例如该云端设备可以是 云端服务器。对上述终端设备不作具体限定,例如该终端设备可以是手机,该终端设备还 可以是物联网(internet of things,IoT)设备等。
[0009]上述第三数据集包括的数据的特征与N个终端设备的数据的特征相同,且第三数据集 包括的数据不属于N个终端设备的本地数据。可以理解的是,特征相同的两个数据可以是 相同或相近领域的数据,或者特征相同的两个数据也可以是格式相同或相近的数据。其中, 数据的特征相同,还可以替换为数据的底层特征相同或相似,底层特征包括但不限于:颜 色、纹理和形状。上述第三数据集可以理解为现有公开的数据集(例如,公开数据库中的 数据集,或公开论文中的数据集等)。在一个示例中,N个终端设备中的每个终端设备的 本地数据的类型可以与第三数据集包括的数据的类型相同,且这两种类型的数据的特征也 相同。例如,N个终端设备中的每个终端设备的本地数据的类型为猫的图像数据,第三数 据集包括的数据也为猫的图像数据。在另一个示例中,N个终端设备中的每个终端设备的 本地数据的类型可以与第三数据集包括的数据的类型不相同,但这两种类型的数据的特征 相同。例如,N个终端设备中的每个终端设备的本地数据的类型为猫的图像数据,第三数 据集包括的数据也为狗的图像数据。
[0010]上述每个终端设备的本地数据,可以理解为,该每个终端设备获取到的一个或多个用 户的真实数据,这些真实数据涉及该一个或多个用户的隐私。
[0011]对上述训练第一模型的云端设备和接收来自N个终端设备的表征结果的云端设备不 作具体限定。在一个示例中,训练第一模型的云端设备和接收来自N个终端设备的表征结 果的云端设备是同一个云端设备。在另一个示例中,训练第一模型的云端设备和接收来自 N个终端设备的表征结果的云端设备是不同的云端设备。在此情况下,接收来自N个终端 设备的表征结果的云端设备需要与训练第一模型的云端设备进行交互,以从训练第一模型 的云端设备处获得第一模型,或者获得第一子模型和第二子模型。
[0012]上述技术方案中,云端设备基于N个终端设备的非本地数据进行模型预训练,得到第 一模型,在训练第一模型的过程中不会泄漏使用该N个终端设备的用户的隐私数据。云端 设备将第一模型拆分为第一子模型和第二子模型,并仅将第一子模型下发给每个终端设 备,使得每个终端设备基于该第一子模型得到目标任务对应的表征结果,进一步云端设备 基于从每个终端设备获取的表征结果对第二子模型进行训练,以得到第三子模型,其中, 第一模型的目标任务和第三子模型的目标任务相同。在训练第三子模型的过程中,终端设 备与云端设备之间传输的是表征结果,而不是终端设备中的数据,有效保障了终端设备中 的数据的安全性,有利于提高用户隐私数据的安全性。在训练第三子模型的过程中,第一 子模型是固定不变的,因此对第二子模型的每一轮次的训练过程中云端设备无需向终端设 备传输第一子模型,同时云端设备也无需跨多个终端设备进行第一子模型的同步,有利于 保证得到的第三子模型具有较高的识别准确度和降低系统开销。本申请提供的模型训练方 法,云端设备和终端设备能够协同地在不泄露数据参与方隐私的情况下执行深度模型(即, 第三子模型)的联合训练。在联合训练过程中,不泄露使用终端设备的用户的数据,同时 也保证训练结果(即,训练好的深度模型参数)不会泄露给拥有用户数据的终端设备。
[0013]结合第一方面,在第一方面的某些实现方式中,该第一模型是包括M层网络的神经 网络模型,M为大于等于2的正整数,
[0014]该第一子模型包括该M层网络中的L层网络,该L层网络用于对输入该第一子模型 的数据进行处理,以得到该目标特征,L为小于M的正整数;
(epoch)后,还可以将云端设备在第一预设时间之后的第二预设时间内接收到的第三表 征结果和第是表征结果加入训练数据集,继续进行训练。这个过程不断循环,直到模型训 练收敛得到第三子模型,有利于提高得到的第三子模型的识别准确度。
[0030]结合第一方面,在第一方面的某些实现方式中,在该接收来自N个终端设备的表征结 果之前,该方法还包括:
[0031]获取该目标任务和该第三数据集;
[0032]根据该目标任务利用该第三数据集进行训练,得到该第一模型;
[0033]基于第一信息,对该第一模型进行划分,得到该第一子模型和本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,所述方法包括:接收来自N个终端设备的表征结果,其中,每个终端设备的表征结果是所述每个终端设备利用第一子模型对所述每个终端设备的本地数据进行第一处理得到的,所述第一处理包括提取目标任务对应的目标特征,所述第一子模型包含于第一模型中,所述第一模型是云端设备根据所述目标任务利用第三数据集训练得到的,所述第三数据集包括的数据的特征与所述N个终端设备的数据的特征相同,且所述第三数据集包括的数据不属于所述N个终端设备的本地数据,N为大于等于2的正整数;利用所述N个终端设备的表征结果和所述目标任务对第二子模型进行训练,得到第三子模型,其中,所述第二子模型包含于所述第一模型中,所述第二子模型的输入包括所述第一子模型的输出。2.根据权利要求1所述的训练方法,其特征在于,所述第一模型是包括M层网络的神经网络模型,M为大于等于2的正整数,所述第一子模型包括所述M层网络中的L层网络,所述L层网络用于对输入所述第一子模型的数据进行处理,以得到所述目标特征,L为小于M的正整数;所述第二子模型包括所述M层网络中除去所述L层网络之外的网络。3.根据权利要求1或2所述的训练方法,其特征在于,所述第一处理还包括量化处理,其中,所述量化处理用于对所述目标特征进行量化处理;或者所述第一处理还包括加噪处理,其中,所述加噪处理用于对所述目标特征进行加噪处理;或者所述第一处理还包括量化处理和加噪处理,其中,所述量化处理用于对所述目标特征进行量化处理,所述加噪处理用于对所述量化处理得到的结果进行加噪处理。4.根据权利要求1

3任一项所述的训练方法,其特征在于,所述N个终端设备包括第一终端设备和第二终端设备,所述N个终端设备的表征结果包括第一表征结果和第二表征结果,其中,所述第一表征结果是所述第一终端设备利用所述第一子模型对第一本地数据进行所述第一处理得到的,所述第一本地数据是所述第一终端设备在第一预设时间内的本地数据;所述第二表征结果是所述第二终端设备利用所述第一子模型对第二本地数据进行所述第二处理得到的,所述第二本地数据是所述第二终端设备在所述第一预设时间内的本地数据。5.根据权利要求4所述的训练方法,其特征在于,所述N个终端设备的表征结果还包括第三表征结果和第四表征结果,其中,所述第三表征结果是所述第一终端设备利用所述第一子模型对第三本地数据进行所述第一处理得到的,所述第三本地数据是所述第一终端设备在第二预设时间内的本地数据,所述第二预设时间为所述第一预设时间之后的预设时间;所述第四表征结果是所述第二终端设备利用所述第一子模型对第四本地数据进行所述第一处理得到的,所述第四本地数据是所述第二终端设备在所述第二预设时间内的本地数据。
6.根据权利要求1

5任一项所述的训练方法,其特征在于,在所述接收来自N个终端设备的表征结果之前,所述方法还包括:获取所述目标任务和所述第三数据集;根据所述目标任务利用所述第三数据集进行训练,得到所述第一模型;基于第一信息,对所述第一模型进行划分,得到所述第一子模型和所述第二子模型,其中,所述第一信息包括所述N个终端设备中每个终端设备的运算性能和存储性能;将所述第一子模型发送给所述N个终端设备。7.根据权利要求1

6任一项所述的训练方法,其特征在于,在所述得到第三子模型之后,所述方法还包括:接收来自所述N个终端设备中的至少一个终端设备的第五表征结果;利用所述第三子模型对所述第五表征结果进行处理,得到所述目标任务对应的预测结果;将所述预测结果发送给所述至少一个终端设备。8.一种模型训练方法,其特征在于,所述方法包括:接收来自云端设备的第一子模型,其中,所述第一子模型包含于第一模型中,所述第一模型是所述云端设备根据目标任务利用第三数据集训练得到的,所述第三数据集包括的数据的特征与N个终端设备的数据的特征相同,且所述第三数据集包括的数据不属于所述N个终端设备的本地数据,N为大于等于2的正整数;利用所述第一子模型对第一终端设备的本地数据进行第一处理,得到第一表征结果,其中,所述第一终端设备是所述N个终端设备中的一个终端设备,所述第一处理包括提取所述目标任务对应的目标特征;将所述第一表征结果发送给所述云端设备;其中,所述第一子模型是根据如权利要求1

7中任一项所述的训练方法训练得到的。9.根据权利要求8所述方法,其特征在于,所述第一模型还包括第二子模型,所述方法还包括:接收第三子模型,其中,所述第三子模型是所述云端设备基于所述N个终端设备的表征结果和所述目标任务对所述第二子模型进行训练得到的;利用所述第三子模型对所述第一表征结果进行处理,得到所述目标任务对应的预测结果。10.一种模型训练装置,其特征在于,包括:收发单元,用于接收来自N个终端设备的表征结果,其中,每个终端设备的表征结果是所述每个终端设备利用第一子模型对所述每个终端设备的本地数据进行第一处理得到的,所述第一处理包括提取目标任务对应的目标特征,所述第一子模型包含于第一模型中,所述第一模型是云端设备根据所述目标任务利用第三数据集训练得到的,所述第三数据集包括的数据的特征与所述每个终端设备的数据的特征相同,且所述第三数据集包括的数据不属于所述每个终端设...

【专利技术属性】
技术研发人员:王森王鹏张弓
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1