基于隐私数据集的模型训练方法和装置制造方法及图纸

技术编号：32174136 阅读：23 留言：0更新日期：2022-02-08 15:33

本发明专利技术涉及多方数据合作的技术领域，提供一种基于隐私数据集的模型训练方法和装置。其中，方法包括：基于公开数据集和与公开数据集对应的真实标签，对服务器端模型进行训练；获取各个客户端发送的第一模型输出；第一模型输出是将公开数据集输入本地学习模型得到的；本地学习模型为基于隐私数据集和对应标签训练得到的；基于各第一模型输出的对应的公开数据，对服务器端模型进行训练；将公开数据集输入服务器端模型，得到第二模型输出；将第二模型输出发送至各客户端，以供各客户端基于第二模型输出和公开数据集，进行本地学习模型的再训练。如此在避免隐私数据集泄露的前提下，基于知识蒸馏和知识融合以隐私数据集为部分训练样本进行模型训练。练样本进行模型训练。练样本进行模型训练。

全部详细技术资料下载

【技术实现步骤摘要】
基于隐私数据集的模型训练方法和装置

[0001]本专利技术涉及多方数据合作的
，尤其涉及一种基于隐私数据集的模型训练方法和装置。

技术介绍

[0002]在数据分析、数据挖掘、经济预测等领域，机器学习模型可被用来分析、发现潜在的数据价值。由于单个数据拥有方持有的数据可能是不完整的，由此难以准确地刻画目标，为了得到更好的模型预测结果，通过多个数据拥有方的数据合作，来进行模型的联合训练的方式得到了广泛的使用。但是在多方数据合作的过程中，涉及到数据安全和模型安全等问题。
[0003]特别是在医疗领域，一些数据集涉及隐私无法公开，只可以在医院内部使用。若想基于各个医院的隐私数据集搭建一个学习模型十分困难。现有的方案中，存在利用隐私数据集和将隐私数据集输入学习模型后得到的模型输出(一般为学习模型的最后一层神经网络的输出)而非模型结果和对应标签作为交换的信息，通过知识蒸馏和知识融合的方式进行模型的训练。但是这种方式下，不仅仍然存在隐私泄露的问题。
[0004]因此，目前缺少基于多方的隐私数据集进行模型训练方案。/>
技术实现思路
...

【技术保护点】

【技术特征摘要】
1.一种基于隐私数据集的模型训练方法，其特征在于，包括：基于公开数据集和与所述公开数据集对应的真实标签，对服务器端模型进行训练；获取各个客户端发送的第一模型输出；所述第一模型输出为客户端将所述公开数据集输入本地学习模型得到的；所述本地学习模型为客户端基于隐私数据集和对应标签对预设模型训练得到的；基于与各所述第一模型输出对应的公开数据和各所述第一模型输出，对服务器端模型进行再训练；将所述公开数据集输入再训练后的所述服务器端模型，得到第二模型输出；将所述第二模型输出发送至各所述客户端，以供各所述客户端基于所述第二模型输出和所述公开数据集，进行所述本地学习模型的再训练。2.根据权利要求1所述的基于隐私数据集的模型训练方法，其特征在于，所述基于公开数据集和与所述公开数据集对应的真实标签，对服务器端模型进行训练，包括：将所述公开数据集输入服务器端模型得到预测结果；基于所述预测结果与所述真实标签之间的交叉熵损失函数，对所述服务器端模型进行训练。3.根据权利要求2所述的基于隐私数据集的模型训练方法，其特征在于，所述基于公开数据集和与所述公开数据集对应的真实标签，对服务器端模型进行训练，还包括：确定并存储第一目标模型输出；所述第一目标模型输出为与目标公开数据对应的模型输出；所述目标公开数据为所述公开数据集中，被输入服务器端模型后得到的预测结果符合对应真实标签的公开数据；确定目标待蒸馏公开数据；所述目标待蒸馏公开数据为所述公开数据集中，输入服务器端模型后得到的预测结果不符合对应真实标签的公开数据；确定第一待蒸馏公开数据；所述第一待蒸馏公开数据为所述目标待蒸馏公开数据中，具有对应的第一目标模型输出的部分数据；基于所述第一待蒸馏公开数据和与所述第一待蒸馏公开数据对应的第一目标模型输出，对所述服务器端模型进行训练。4.根据权利要求3所述的基于隐私数据集的模型训练方法，其特征在于，所述获取各个客户端发送的第一模型输出，包括：确定第二待蒸馏公开数据；所述第二待蒸馏公开数据为所述目标蒸馏公开数据中，不具有对应的第一目标模型输出的部分数据；向各所述客户端发送请求；所述请求用于请求客户端回传第一模型输出；所述第一模型输出为各本地学习模型的模型输出中对应所述第二待蒸馏公开数据的部分模型输出；接收各所述客户端回传的第一模型输出。5.根据权利要求4所述的基于隐私数据集的模型训练方法，其特征在于，所述...

【专利技术属性】
技术研发人员：刘洋，刘洋，程思婕，武婧雯，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人