模型训练方法和装置制造方法及图纸

技术编号：35807661 阅读：8 留言：0更新日期：2022-12-03 13:26

本申请提供了一种模型训练方法和装置。该方法包括：接收来自N个终端设备的表征结果，每个终端设备的表征结果是每个终端设备利用第一子模型对每个终端设备的本地数据进行第一处理得到的，第一处理包括提取目标任务对应的目标特征，第一子模型包含于第一模型中，第一模型是云端设备根据目标任务利用第三数据集训练得到的，第三数据集包括的数据的特征与每个终端设备的数据的特征相同，第三数据集包括的数据不属于每个终端设备的本地数据，N为大于等于2的正整数；利用N个终端设备的表征结果和目标任务对第二子模型进行训练，得到第三子模型，第二子模型包含于第一模型中。该方法可以提高用户隐私数据的安全性和降低系统开销。以提高用户隐私数据的安全性和降低系统开销。以提高用户隐私数据的安全性和降低系统开销。

全部详细技术资料下载

【技术实现步骤摘要】
模型训练方法和装置

[0001]本申请涉及人工智能领域，并且更具体地，涉及一种模型训练方法和装置。

技术介绍

[0002]随着人工智能(artificial intelligence,AI)技术和互联网产业的发展，数据隐私和安全越来越受到重视。联邦学习(federated learning，FL)正是在满足数据隐私和安全的前提下，进行数据使用和训练模型的方法。
[0003]现有的联邦学习架构和方法需要假设所有的终端在包含了不同数据的同时拥有相同的模型结构，并设置了一个中央服务器通过不断收集、整合、分发这些模型，使参与学习的各个终端最终能够获得一个效果最好的联邦模型，我们称这一类方法为参数服务器架构下的联邦学习方法。参数服务器架构能够较好地解决一部分比较理想的联邦学习场景，同时由于终端和中央服务器间传输的是模型参数而非数据本身，能够满足一定的数据隐私要求。但是，参数服务器架构对于模型结构和数据都有很多的限制，需要数据能够完全对齐、需要模型结构完全一致，使得能够应用的场景非常局限；而且即使能够应用的时候，由于终端之间的模型参数差异和数据差异，导致需要很多次的训练才能得到一个满足需求的联邦模型，这无疑带来大量的运算资源的消耗，且需要很长的训练时间；同时由于每一轮次的训练过程都需要多次传输模型，因此该架构需要更多次数的数据传输，这会带来很高的传输带宽成本。此外，上述各种可能原因都会使得现有的联邦学习方法的学习质量较低，进一步导致得到的训练模型的识别准确度较低。

技术实现思路

...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法，其特征在于，所述方法包括：接收来自N个终端设备的表征结果，其中，每个终端设备的表征结果是所述每个终端设备利用第一子模型对所述每个终端设备的本地数据进行第一处理得到的，所述第一处理包括提取目标任务对应的目标特征，所述第一子模型包含于第一模型中，所述第一模型是云端设备根据所述目标任务利用第三数据集训练得到的，所述第三数据集包括的数据的特征与所述N个终端设备的数据的特征相同，且所述第三数据集包括的数据不属于所述N个终端设备的本地数据，N为大于等于2的正整数；利用所述N个终端设备的表征结果和所述目标任务对第二子模型进行训练，得到第三子模型，其中，所述第二子模型包含于所述第一模型中，所述第二子模型的输入包括所述第一子模型的输出。2.根据权利要求1所述的训练方法，其特征在于，所述第一模型是包括M层网络的神经网络模型，M为大于等于2的正整数，所述第一子模型包括所述M层网络中的L层网络，所述L层网络用于对输入所述第一子模型的数据进行处理，以得到所述目标特征，L为小于M的正整数；所述第二子模型包括所述M层网络中除去所述L层网络之外的网络。3.根据权利要求1或2所述的训练方法，其特征在于，所述第一处理还包括量化处理，其中，所述量化处理用于对所述目标特征进行量化处理；或者所述第一处理还包括加噪处理，其中，所述加噪处理用于对所述目标特征进行加噪处理；或者所述第一处理还包括量化处理和加噪处理，其中，所述量化处理用于对所述目标特征进行量化处理，所述加噪处理用于对所述量化处理得到的结果进行加噪处理。4.根据权利要求1
‑
3任一项所述的训练方法，其特征在于，所述N个终端设备包括第一终端设备和第二终端设备，所述N个终端设备的表征结果包括第一表征结果和第二表征结果，其中，所述第一表征结果是所述第一终端设备利用所述第一子模型对第一本地数据进行所述第一处理得到的，所述第一本地数据是所述第一终端设备在第一预设时间内的本地数据；所述第二表征结果是所述第二终端设备利用所述第一子模型对第二本地数据进行所述第二处理得到的，所述第二本地数据是所述第二终端设备在所述第一预设时间内的本地数据。5.根据权利要求4所述的训练方法，其特征在于，所述N个终端设备的表征结果还包括第三表征结果和第四表征结果，其中，所述第三表征结果是所述第一终端设备利用所述第一子模型对第三本地数据进行所述第一处理得到的，所述第三本地数据是所述第一终端设备在第二预设时间内的本地数据，所述第二预设时间为所述第一预设时间之后的预设时间；所述第四表征结果是所述第二终端设备利用所述第一子模型对第四本地数据进行所述第一处理得到的，所述第四本地数据是所述第二终端设备在所述第二预设时间内的本地数据。
6.根据权利要求1
‑
5任一项所述的训练方法，其特征在于，在所述接收来自N个终端设备的表征结果之前，所述方法还包括：获取所述目标任务和所述第三数据集；根据所述目标任务利用所述第三数据集进行训练，得到所述第一模型；基于第一信息，对所述第一模型进行划分，得到所述第一子模型和所述第二子模型，其中，所述第一信息包括所述N个终端设备中每个终端设备的运算性能和存储性能；将所述第一子模型发送给所述N个终端设备。7.根据权利要求1
‑
6任一项所述的训练方法，其特征在于，在所述得到第三子模型之后，所述方法还包括：接收来自所述N个终端设备中的至少一个终端设备的第五表征结果；利用所述第三子模型对所述第五表征结果进行处理，得到所述目标任务对应的预测结果；将所述预测结果发送给所述至少一个终端设备。8.一种模型训练方法，其特征在于，所述方法包括：接收来自云端设备的第一子模型，其中，所述第一子模型包含于第一模型中，所述第一模型是所述云端设备根据目标任务利用第三数据集训练得到的，所述第三数据集包括的数据的特征与N个终端设备的数据的特征相同，且所述第三数据集包括的数据不属于所述N个终端设备的本地数据，N为大于等于2的正整数；利用所述第一子模型对第一终端设备的本地数据进行第一处理，得到第一表征结果，其中，所述第一终端设备是所述N个终端设备中的一个终端设备，所述第一处理包括提取所述目标任务对应的目标特征；将所述第一表征结果发送给所述云端设备；其中，所述第一子模型是根据如权利要求1
‑
7中任一项所述的训练方法训练得到的。9.根据权利要求8所述方法，其特征在于，所述第一模型还包括第二子模型，所述方法还包括：接收第三子模型，其中，所述第三子模型是所述云端设备基于所述N个终端设备的表征结果和所述目标任务对所述第二子模型进行训练得到的；利用所述第三子模型对所述第一表征结果进行处理，得到所述目标任务对应的预测结果。10.一种模型训练装置，其特征在于，包括：收发单元，用于接收来自N个终端设备的表征结果，其中，每个终端设备的表征结果是所述每个终端设备利用第一子模型对所述每个终端设备的本地数据进行第一处理得到的，所述第一处理包括提取目标任务对应的目标特征，所述第一子模型包含于第一模型中，所述第一模型是云端设备根据所述目标任务利用第三数据集训练得到的，所述第三数据集包括的数据的特征与所述每个终端设备的数据的特征相同，且所述第三数据集包括的数据不属于所述每个终端设...

【专利技术属性】
技术研发人员：王森，王鹏，张弓，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人