一种基于隐私保护的方式获取联合训练模型的方法及系统技术方案

技术编号:26342891 阅读:59 留言:0更新日期:2020-11-13 20:39
本说明书一个或多个实施例涉及一种基于隐私保护的方式获取联合训练模型的方法及系统,所述方法由参与方中的第一终端实现;其中,所述参与方包括第一终端与第二终端,分别持有水平或者垂直切分的训练数据,所述训练数据包括含样本标签的第一训练数据以及不含样本标签的第二训练数据;所述方法包括:基于含样本标签的所述第一训练数据通过隐私保护的方式与所述参与方中的第二终端联合训练第一模型;将不含标签的第二训练数据通过隐私保护的方式输入训练好的所述第一模型得到第二训练数据的预测标签;基于含样本标签的第一训练数据以及含预测标签的第二训练数据通过隐私保护的方式与所述第二终端联合训练模型,获取第二模型。

【技术实现步骤摘要】
一种基于隐私保护的方式获取联合训练模型的方法及系统
本说明书一个或多个实施例涉及多方数据合作,特别涉及一种基于隐私保护的方式获取联合训练模型的方法及系统。
技术介绍
在数据分析、数据挖掘、经济预测等领域,机器学习模型可被用来分析、发现潜在的数据价值。由于单个数据拥有方持有的数据可能是不完整的,由此难以准确地刻画目标,为了得到更好的模型预测结果,通过多个数据拥有方的数据合作,来进行模型的联合训练的方式得到了广泛的使用。但是,在多方数据合作的过程中,标签信息并不是对所有样本都存在的。在医疗、金融等领域,标签信息需要大量的人工专家来标注,因此成本昂贵。因此,有必要提出一种基于隐私保护的方式获取联合训练模型的方法,来使用少量的有标签样本和大量的未标签样本来训练一个有效的联合训练模型。
技术实现思路
本说明书实施例的一个方面提供一种基于隐私保护的方式获取联合训练模型的方法,所述方法由参与方中的第一终端实现;其中,所述参与方包括第一终端与第二终端,分别持有水平或者垂直切分的训练数据,所述训练数据包括含样本标签的第一训练数据以及不含样本标签的第二训练数据;所述方法包括:基于含样本标签的所述第一训练数据通过隐私保护的方式与所述参与方中的第二终端联合训练第一模型;将不含标签的第二训练数据通过隐私保护的方式输入训练好的所述第一模型得到第二训练数据的预测标签;基于含样本标签的第一训练数据以及含预测标签的第二训练数据通过隐私保护的方式与所述第二终端联合训练模型,获取第二模型。本说明书实施例的另一方面提供一种基于隐私保护的方式获取联合训练模型的系统,所述系统由参与方中的第一终端实现;其中,所述参与方包括第一终端与第二终端,分别持有水平或者垂直切分的训练数据,所述训练数据包括含样本标签的第一训练数据以及不含样本标签的第二训练数据;所述系统包括:第一模型获取模块:用于基于含样本标签的所述第一训练数据通过隐私保护的方式与所述第二终端联合训练第一模型;预测标签获取模块:用于将不含标签的第二训练数据通过隐私保护的方式输入训练好的所述第一模型得到第二训练数据的预测标签;第二模型获取模块:用于基于含样本标签的第一训练数据以及含预测标签的第二训练数据通过隐私保护的方式与第二终端联合训练模型,获取第二模型。本说明书实施例的另一方面提供一种基于隐私保护的方式获取联合训练模型的装置,所述装置包括处理器以及存储器;所述存储器用于存储指令,所述处理器用于执行所述指令,以实现所述基于隐私保护的方式获取联合训练模型的操作。附图说明本说明书将以示例性实施例的方式进一步描述,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:图1是根据本说明书的一些实施例所示的基于隐私保护的方式获取联合训练模型系统的示例性应用场景图;图2是根据本说明书的一些实施例所示的基于隐私保护的方式获取联合训练模型方法的示例性流程图;图3是根据本说明书的一些实施例所示的基于同态加密的方法获取第一模型的示例性流程图;图4是根据本说明书的一些实施例所示基于同态加密的方式迭代更新第二模型示例性流程图;图5是根据本说明书的另一些实施例所示的基于秘密分享的方式迭代更新第二模型的示例性流程图。具体实施方式为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。应当理解,本说明书中所使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。在经济、文化、教育、医疗、公共管理等各行各业充斥的大量信息数据,对其进行例如数据分析、数据挖掘、以及趋势预测等的数据处理在越来越多场景中广泛应用。其中,通过数据合作的方式可以使多个数据拥有方获得更好的数据处理结果。例如,可以通过多方数据的联合训练来获得更为准确的模型参数。在一些实施例中,基于隐私保护的方式获取联合训练模型系统可以应用于在保证各方数据安全的情况下,各方协同训练机器学习模型供多方使用的场景。在这个场景中,多个数据方拥有自己的数据,他们想共同使用彼此的数据来统一建模(例如,线性回归模型、逻辑回归模型等),但并不想各自的数据(尤其是训练数据)被泄露。例如,互联网储蓄机构A拥有一批用户数据,政府银行B拥有另一批用户数据,基于A和B的用户数据确定的训练样本集可以训练得到比较好的机器学习模型。A和B都愿意通过彼此的用户数据共同参与模型训练,但因为一些原因A和B不愿意自己的用户数据信息遭到泄露,或者至少不愿意让对方知道自己的用户数据信息。基于隐私保护的方式获取联合训练模型的系统可以使多方的训练数据在不受到泄露的情况下,通过多方数据的联合训练来得到共同使用的机器学习模型,达到一种共赢的合作状态。在一些实施例中,基于多方数据进行的联合训练中,为了防止训练数据的泄露,可以采用混淆电路(garbledcircuit)或秘密分享的方式来进行。其中,在特征维度较大时,混淆电路(garbledcircuit)或秘密分享方案的运算效率不高。而且,秘密分享的方式需要多个数据方在在同一时间利用自身的数据参与运算。在一些实施例中,也可以对各方的训练数据进行同态加密,然后让各方的训练数据在加密的状态参与模型训练的运算。其中,同态加密仅支持积运算和/或和运算,在使用的过程中,需要把对应的运算公式根据需要进行相应的转换。在一些特征维度较大的场景中,同态加密方案的运算效率高。在多方联合建模的场景下,并非所有的训练数据都包含对应的样本标签。在某些情况下(如医疗诊断等应用场景),样本标签需要大量的人工专家来标注,因此成本昂贵。如何使用少量的有标签样本和大量的未标签样本来训练一个有效的模型很有意义。在一些实施例中,可以采用多方隐私保护的自学习的方式解决这一问题。图1是根据本说明书的一些实施例所示的基于隐私保护的方式获取联合训练模型系统的示例性应用场景图。在一些实施例中,基于隐私保护的方式获取联本文档来自技高网...

【技术保护点】
1.一种基于隐私保护的方式获取联合训练模型的方法,所述方法由参与方中的第一终端实现;其中,所述参与方包括第一终端与第二终端,分别持有水平或者垂直切分的训练数据,所述训练数据包括含样本标签的第一训练数据以及不含样本标签的第二训练数据;/n所述方法包括:/n基于含样本标签的所述第一训练数据通过隐私保护的方式与所述参与方中的第二终端联合训练第一模型;/n将不含标签的第二训练数据通过隐私保护的方式输入训练好的所述第一模型得到第二训练数据的预测标签;/n基于含样本标签的第一训练数据以及含预测标签的第二训练数据通过隐私保护的方式与所述第二终端联合训练模型,获得第二模型。/n

【技术特征摘要】
1.一种基于隐私保护的方式获取联合训练模型的方法,所述方法由参与方中的第一终端实现;其中,所述参与方包括第一终端与第二终端,分别持有水平或者垂直切分的训练数据,所述训练数据包括含样本标签的第一训练数据以及不含样本标签的第二训练数据;
所述方法包括:
基于含样本标签的所述第一训练数据通过隐私保护的方式与所述参与方中的第二终端联合训练第一模型;
将不含标签的第二训练数据通过隐私保护的方式输入训练好的所述第一模型得到第二训练数据的预测标签;
基于含样本标签的第一训练数据以及含预测标签的第二训练数据通过隐私保护的方式与所述第二终端联合训练模型,获得第二模型。


2.根据权利要求1所述的方法,所述方法还包括迭代训练第二模型,其中每轮迭代包括:
基于上一轮迭代计算的第二模型更新预测标签;
基于含样本标签的第一训练数据与含更新后预测标签的第二训练数据通过隐私保护的方式与所述第二终端联合训练模型,更新第二模型;
基于更新后的第二模型确定进行下一轮迭代,或者确定第二模型。


3.根据权利要求2所述的方法,所述第二模型包括第一参数矩阵和第二参数矩阵,所述第一参数矩阵与所述第二参数矩阵分别存储在所述第一终端与所述第二终端;所述迭代更新第二模型,还包括:
基于所述第一参数矩阵与所述第二参数矩阵采用隐私保护的方式进行联合训练,得到第一加密累计值与第二加密累计值;所述第一加密累计值与所述第二加密累计值分别存储在所述参与方的两个终端上;
基于所述第一加密累计值计算第一加密梯度矩阵;
基于第一加密梯度矩阵更新所述第一参数矩阵。


4.根据权利要求3所述的方法,所述基于所述第一加密累计值计算第一加密梯度矩阵,还包括:
接收来自所述第二终端的第二加密累计值;
基于所述第一加密累计值、所述第二加密累计值以及第一终端持有的训练数据计算第一加密梯度矩阵。


5.根据权利要求3所述的方法,所述基于第一加密梯度矩阵更新所述第一参数矩阵,还包括:
所述第一加密梯度矩阵发送给第二终端进行解密,获取解密后的第一梯度矩阵;
基于所述解密后的第一梯度矩阵更新所述第一参数矩阵。


6.根据权利要求3所述的方法,所述基于所述第一加密累计值计算第一加密梯度矩阵,还包括:
基于秘密分享的方法将预测标签以及样本标签拆分为第一标签和第二标签;所述第一标签和所述第二标签分别存储在所述第一终端与所述第二终端上;
基于所述第一标签与所述第一加密累计值进行计算,得到第一误差;
基于所述第一误差和第一终端持有的训练数据计算第一加密梯度矩阵第一部分;
将所述第一终端持有的训练数据与所述第二终端中的第二误差进行安全矩阵乘法,得到第一加密梯度第二部分的第一分片;并从第二终端获取第一加密梯度第二部分的第二分片;
根据所述第一加密梯度第一部分和所述第一加密梯度第二部分的第一分片以及第二终端持有的第二加密梯度第二部分的第二分片,计算第一加密梯度矩阵。


7.根据权利要求1所述的方法,所述联合训练模型包括线性回归模型。


8.一种基于隐私保护的方式获取联合训练模型的系统,所述系统由参与方中的第一终端实现;其中,所述参与方包括第一终端与...

【专利技术属性】
技术研发人员:陈超超周俊王力刘颖婷
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1