【技术实现步骤摘要】
基于隐私数据集的模型训练方法和装置
[0001]本专利技术涉及多方数据合作的
,尤其涉及一种基于隐私数据集的模型训练方法和装置。
技术介绍
[0002]在数据分析、数据挖掘、经济预测等领域,机器学习模型可被用来分析、发现潜在的数据价值。由于单个数据拥有方持有的数据可能是不完整的,由此难以准确地刻画目标,为了得到更好的模型预测结果,通过多个数据拥有方的数据合作,来进行模型的联合训练的方式得到了广泛的使用。但是在多方数据合作的过程中,涉及到数据安全和模型安全等问题。
[0003]特别是在医疗领域,一些数据集涉及隐私无法公开,只可以在医院内部使用。若想基于各个医院的隐私数据集搭建一个学习模型十分困难。现有的方案中,存在利用隐私数据集和将隐私数据集输入学习模型后得到的模型输出(一般为学习模型的最后一层神经网络的输出)而非模型结果和对应标签作为交换的信息,通过知识蒸馏和知识融合的方式进行模型的训练。但是这种方式下,不仅仍然存在隐私泄露的问题。
[0004]因此,目前缺少基于多方的隐私数据集进行模型训练方案。 />
技术实现思路
...
【技术保护点】
【技术特征摘要】
1.一种基于隐私数据集的模型训练方法,其特征在于,包括:基于公开数据集和与所述公开数据集对应的真实标签,对服务器端模型进行训练;获取各个客户端发送的第一模型输出;所述第一模型输出为客户端将所述公开数据集输入本地学习模型得到的;所述本地学习模型为客户端基于隐私数据集和对应标签对预设模型训练得到的;基于与各所述第一模型输出对应的公开数据和各所述第一模型输出,对服务器端模型进行再训练;将所述公开数据集输入再训练后的所述服务器端模型,得到第二模型输出;将所述第二模型输出发送至各所述客户端,以供各所述客户端基于所述第二模型输出和所述公开数据集,进行所述本地学习模型的再训练。2.根据权利要求1所述的基于隐私数据集的模型训练方法,其特征在于,所述基于公开数据集和与所述公开数据集对应的真实标签,对服务器端模型进行训练,包括:将所述公开数据集输入服务器端模型得到预测结果;基于所述预测结果与所述真实标签之间的交叉熵损失函数,对所述服务器端模型进行训练。3.根据权利要求2所述的基于隐私数据集的模型训练方法,其特征在于,所述基于公开数据集和与所述公开数据集对应的真实标签,对服务器端模型进行训练,还包括:确定并存储第一目标模型输出;所述第一目标模型输出为与目标公开数据对应的模型输出;所述目标公开数据为所述公开数据集中,被输入服务器端模型后得到的预测结果符合对应真实标签的公开数据;确定目标待蒸馏公开数据;所述目标待蒸馏公开数据为所述公开数据集中,输入服务器端模型后得到的预测结果不符合对应真实标签的公开数据;确定第一待蒸馏公开数据;所述第一待蒸馏公开数据为所述目标待蒸馏公开数据中,具有对应的第一目标模型输出的部分数据;基于所述第一待蒸馏公开数据和与所述第一待蒸馏公开数据对应的第一目标模型输出,对所述服务器端模型进行训练。4.根据权利要求3所述的基于隐私数据集的模型训练方法,其特征在于,所述获取各个客户端发送的第一模型输出,包括:确定第二待蒸馏公开数据;所述第二待蒸馏公开数据为所述目标蒸馏公开数据中,不具有对应的第一目标模型输出的部分数据;向各所述客户端发送请求;所述请求用于请求客户端回传第一模型输出;所述第一模型输出为各本地学习模型的模型输出中对应所述第二待蒸馏公开数据的部分模型输出;接收各所述客户端回传的第一模型输出。5.根据权利要求4所述的基于隐私数据集的模型训练方法,其特征在于,所述...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。