一种基于可选隐私数据进行模型训练的方法及系统技术方案

技术编号:23985655 阅读:37 留言:0更新日期:2020-04-29 13:24
本说明书一个或多个实施例涉及一种基于可选隐私数据进行模型训练的方法及系统。所述方法包括:标签持有终端接收至少来自第一终端的第一类数据和第二类数据的运算积;所述第一类数据和第二类数据对应不同的隐私等级;标签持有终端基于接收到的第一类数据、第二类数据的运算积以及标签持有终端的第二数据,确定数据累计值;标签持有终端基于数据累计值以及样本标签,确定至少基于标签持有终端和第一终端联合训练的模型的损失值;将损失值参与梯度值的计算;所述梯度值用于更新所述联合训练的模型;其中,第一终端持有第一数据,包括第一类数据和第二类数据;标签持有终端持有第二数据以及样本标签;第一数据与第二数据对应于相同的训练样本。

A model training method and system based on optional privacy data

【技术实现步骤摘要】
一种基于可选隐私数据进行模型训练的方法及系统
本说明书一个或多个实施例涉及多方数据合作,特别涉及一种基于可选隐私数据进行模型训练的方法和系统。
技术介绍
在数据分析、数据挖掘、经济预测等领域,机器学习模型可被用来分析、发现潜在的数据价值。由于单个数据拥有方持有的数据可能是不完整的,由此难以准确地刻画目标,为了得到更好的模型预测结果,通过多个数据拥有方的数据合作,来进行模型的联合训练的方式得到了广泛的使用。但是在多方数据合作的过程中,涉及到数据安全和模型安全等问题。因此,有必要提出一种安全的基于多方数据进行联合建模的方案。
技术实现思路
本说明书实施例的一个方面提供一种基于可选隐私数据进行模型训练的方法;所述方法包括:标签持有终端接收第一终端的第一类数据、以及第二类数据与对应模型参数的运算结果;所述第一类数据和第二类数据对应不同的隐私等级;标签持有终端基于接收到的所述第一终端的数据、以及自身持有的第二数据,确定数据累计值;标签持有终端基于所述数据累计值以及样本标签,确定至少基于所述标签持有终端和第一终端联合训练的模型的本文档来自技高网...

【技术保护点】
1.一种基于可选隐私数据进行模型训练的方法;所述方法包括:/n标签持有终端接收第一终端的第一类数据、以及第二类数据与对应模型参数的运算结果;所述第一类数据和第二类数据对应不同的隐私等级;/n标签持有终端基于接收到的所述第一终端的数据、以及自身持有的第二数据,确定数据累计值;/n标签持有终端基于所述数据累计值以及样本标签,确定至少基于所述标签持有终端和第一终端联合训练的模型的损失值;/n将所述损失值参与梯度值的计算;所述梯度值用于更新所述联合训练的模型;/n其中,所述第一终端持有第一数据,所述第一数据包括第一类数据和第二类数据;标签持有终端持有所述第二数据以及样本标签;所述第一数据与所述第二数据...

【技术特征摘要】
1.一种基于可选隐私数据进行模型训练的方法;所述方法包括:
标签持有终端接收第一终端的第一类数据、以及第二类数据与对应模型参数的运算结果;所述第一类数据和第二类数据对应不同的隐私等级;
标签持有终端基于接收到的所述第一终端的数据、以及自身持有的第二数据,确定数据累计值;
标签持有终端基于所述数据累计值以及样本标签,确定至少基于所述标签持有终端和第一终端联合训练的模型的损失值;
将所述损失值参与梯度值的计算;所述梯度值用于更新所述联合训练的模型;
其中,所述第一终端持有第一数据,所述第一数据包括第一类数据和第二类数据;标签持有终端持有所述第二数据以及样本标签;所述第一数据与所述第二数据对应于相同的训练样本。


2.根据权利要求1所述的方法,所述联合训练的模型包括线性回归模型或逻辑回归模型。


3.根据权利要求1所述的方法,所述梯度值包括第一类累计梯度值;所述将所述损失值参与梯度值的计算包括:
标签持有终端基于所述损失值以及第一终端和标签持有终端上的第一类数据对应的特征,确定第一类累计梯度值;
基于所述第一类累计梯度值更新所述联合训练的模型。


4.根据权利要求3所述的方法,所述梯度值还包括第二类梯度值;所述将所述损失值参与梯度值的计算包括:
标签持有终端基于所述损失值以及标签持有终端的第二类数据对应的特征,确定第二类梯度值;并基于标签持有终端的第二类梯度值更新所述联合训练的模型。


5.根据权利要求1所述的方法,所述梯度值还包括第二梯度值;所述将所述损失值参与梯度值的计算包括:
标签持有终端基于所述损失值以及所述第二数据对应的特征,确定标签持有终端的第二梯度值;
基于所述第二梯度值更新所述联合训练的模型。


6.根据权利要求1所述的方法,所述第一数据和第二数据包括与实体相关的图像数据、文本数据或声音数据。


7.一种基于可选隐私数据进行模型训练的系统,所述系统包括:
数据接收模块,用于接收第一终端的第一类数据、以及第二类数据与对应模型参数的运算结果;所述第一类数据和第二类数据对应不同的隐私等级;
数据累计值确定模块,用于基于接收到的所述第一终端的数据、以及自身持有的第二数据,确定数据累计值;
损失值确定模块,用于基于所述数据累计值以及样本标签,确定基于所述标签持有终端和第一终端联合训练的模型的损失值;
模型参数更新模块,用于将所述损失值参与梯度值的计算;所述梯度值用于更新所述联合训练的模型;
其中,所述第一终端持有第一数据,所述第一数据包括第一类数据和第二类数据;所述标签持有终端持有所述第二数据以及样本标签;所述第一数据与所述第二数据对应于相同的训练样本。


8.根据权利要求7所述的系统,所述联合训练的模型包括线性回归模型或逻辑回归模型。


9.根据权利要求7所述的系统,所述梯度值包括第一类累计梯度值;所述模型参数更新模块还用于:
基于所述损失值以及第一终端和标签持有终端上的第一类数据对应的特征,确定第一类累计梯度值;
基于所述第一类累计梯度值更新所述联合训练的模型。


10.根据权利要求9所述的系统,所述梯度值还包括第二类梯度值;所述模型参数更新模块还用于:
基于所述损失值以及标签持有终端的第二类数据对应的特征,确定第...

【专利技术属性】
技术研发人员:陈超超王力周俊
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1