基于多方安全计算的树模型的训练方法和业务预测方法技术

技术编号:27006567 阅读:11 留言:0更新日期:2021-01-08 17:10
本公开实施例提供一种基于多方安全计算的树模型的训练方法和业务预测方法,树模型由参与多方安全计算的多方共同训练,多方包括第一数据拥有方和至少一个第二数据拥有方,第一数据拥有方具有各训练样本对应的第一样本标签,第二数据拥有方具有训练样本对应的第二样本标签;该方法包括:第一数据拥有方接收第二数据拥有方发送的每个训练样本分别对应的第二加密中间参数;基于本轮迭代对应的分裂特征,将各训练样本划分得到样本集合;将样本集合中样本的第二加密中间参数统计后返回至第二数据拥有方;对于每个训练样本,根据第一样本标签获得第一中间参数,并统计样本集合中所有样本的第一中间参数统计值;基于中间参数,调整树模型的模型参数。

【技术实现步骤摘要】
基于多方安全计算的树模型的训练方法和业务预测方法
本公开涉及机器学习技术,具体涉及一种基于多方安全计算的树模型的训练方法和业务预测方法。
技术介绍
多方安全计算(SecureMulti-PartyComputation,MPC)是针对无可信第三方情况下,安全地进行多方协同的计算问题。即在一个分布式网络中,多个参与实体各自持有秘密输入,各方希望共同完成对某函数的计算,而要求每个参与实体除计算结果外均不能得到其他参与实体的任何输入信息。相关技术中,可以使用MPC的方法由多方共同训练模型,每个参与方都具有训练模型所需的一部分样本特征。参与MPC计算的多方通常只有其中一个主体方拥有自己的样本标签,其他的参与方只是提供自己的特征协助训练模型。
技术实现思路
本公开实施例至少提供一种基于多方安全计算的树模型的训练方法和业务预测方法。第一方面,提供一种基于多方安全计算的树模型的训练方法,所述树模型由参与多方安全计算的多方共同训练,所述多方包括第一数据拥有方和至少一个第二数据拥有方,其中,第一数据拥有方具有各训练样本对应的第一样本标签,所述第二数据拥有方具有训练样本对应的第二样本标签;所述方法包括:所述第一数据拥有方接收所述第二数据拥有方发送的每个训练样本分别对应的第二加密中间参数,其中,所述第二加密中间参数是由第二数据拥有方根据所述第二样本标签获得第二中间参数后再进行同态加密得到;基于本轮迭代对应的分裂特征,将各训练样本划分得到样本集合;将所述样本集合中所有样本的第二加密中间参数统计后返回至第二数据拥有方,以使得所述第二数据拥有方解密得到第二中间参数统计值;对于每个训练样本,根据所述第一样本标签获得第一中间参数,并统计所述样本集合中所有样本的第一中间参数统计值;基于中间参数,调整所述树模型的模型参数,其中,所述中间参数是根据所述第一中间参数统计值、以及第二中间参数统计值得到。第二方面,提供一种基于树模型的业务预测方法,所述方法包括:接收业务对象的对象特征;将所述对象特征输入预先训练的树模型,其中,所述树模型按照本公开任一实施例所述的方法训练得到,得到所述树模型输出的业务预测结果。第三方面,提供一种基于多方安全计算的树模型的训练装置,所述树模型由参与多方安全计算的多方共同训练,所述多方包括第一数据拥有方和至少一个第二数据拥有方,其中,第一数据拥有方具有各训练样本对应的第一样本标签,所述第二数据拥有方具有训练样本对应的第二样本标签;所述装置包括:参数接收模块,用于接收所述第二数据拥有方发送的每个训练样本分别对应的第二加密中间参数,其中,所述第二加密中间参数是由第二数据拥有方根据所述第二样本标签获得第二中间参数后再进行同态加密得到;分裂处理模块,用于基于本轮迭代对应的分裂特征,将各训练样本划分得到样本集合;统计处理模块,用于将所述样本集合中所有样本的第二加密中间参数统计后返回至第二数据拥有方,以使得所述第二数据拥有方解密得到第二中间参数统计值;对于每个训练样本,根据所述第一样本标签获得第一中间参数,并统计所述样本集合中所有样本的第一中间参数统计值;参数调整模块,用于基于中间参数,调整所述树模型的模型参数,其中,所述中间参数是根据所述第一中间参数统计值、以及第二中间参数统计值得到。第四方面,提供一种基于树模型的业务预测装置,所述装置包括:特征接收模块,用于接收业务对象的对象特征;预测处理模块,用于将所述对象特征输入预先训练的树模型,其中,所述树模型按照本公开任一实施例所述的训练方法训练得到,得到所述树模型输出的业务预测结果。第五方面,提供一种电子设备,所述设备包括存储器、处理器,所述存储器用于存储可在处理器上运行的计算机指令,所述处理器用于在执行所述计算机指令时实现本公开任一实施例所述的方法。第六方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现本公开任一实施例所述的方法。本公开实施例提供的基于多方安全计算的树模型的训练方法和业务预测方法,通过拥有标签的双方在计算过程中的树模型节点更新利用了基于两方标签计算得到的参数,可以不泄露各方数据(包括标签),实现了多标签都参与了树模型的训练,能够很好地利用不同参与方所拥有的样本标签,提高了树模型的预测准确性。附图说明为了更清楚地说明本公开一个或多个实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开一个或多个实施例中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1示出了本公开至少一个实施例提供的一种树模型训练方法的原理图;图2示出了本公开至少一个实施例提供的一种树模型的分裂示意图;图3示出了本公开至少一个实施例提供的一种树模型的迭代训练过程示意;图4示出了本公开至少一个实施例提供的一种基于树模型的业务预测方法;图5示出了本公开至少一个实施例提供的一种基于多方安全计算的树模型的训练装置的结构示意图;图6示出了本公开至少一个实施例提供的一种业务预测装置的结构图。具体实施方式为了使本
的人员更好地理解本公开一个或多个实施例中的技术方案,下面将结合本公开一个或多个实施例中的附图,对本公开一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开一个或多个实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本公开保护的范围。随着机器学习技术的不断发展,很多业务领域可以利用机器学习模型来处理业务问题,例如,在金融风控场景下,可以利用树模型来预测一笔交易是否存在风险。而该树模型需要预先进行训练,实际训练所需的数据往往会涉及到交易涉及到的多方,例如,电子支付平台拥有交易用户的交易账户数据,商户方拥有该交易用户的交易资金数据等。可以利用该多方各自拥有的数据共同完成对树模型的训练,这样可以使得训练得到的树模型预测效果更好。然而,由于行业竞争、数据安全、用户隐私等问题,各方的数据不能泄露给另一方,如何在既保护各方数据隐私安全的基础上,又能利用各方数据共同训练业务要使用的树模型成为一项挑战。相关技术中,可以将多方安全计算MPC技术应用于树模型的训练,即多方通过MPC技术协同训练树模型。本公开实施例提供了一种多方协同通过MPC技术训练树模型的方法,如图1所示,假设参与协同训练树模型的多方包括:A方和B方(以两方为例,实际实施中可以有更多方参与)。假设A方是电子支付平台,其拥有的数据可以包括一笔交易涉及的账户信息,比如,该账户信息可以包括对应用户的年龄、住址、姓名等数据。假设B方是商户方,可以拥有一笔交易涉及的交易金额、交易地点、交易时间等数据。可以通过A方和B方的数据协同训练一个用本文档来自技高网
...

【技术保护点】
1.一种基于多方安全计算的树模型的训练方法,其特征在于,所述树模型由参与多方安全计算的多方共同训练,所述多方包括第一数据拥有方和至少一个第二数据拥有方,其中,所述第一数据拥有方具有各训练样本对应的第一样本标签,所述第二数据拥有方具有所述训练样本对应的第二样本标签;/n所述方法包括:/n所述第一数据拥有方接收所述第二数据拥有方发送的每个训练样本分别对应的第二加密中间参数,其中,所述第二加密中间参数是由第二数据拥有方根据所述第二样本标签获得第二中间参数后再进行同态加密得到;/n基于本轮迭代对应的分裂特征,将各训练样本划分得到样本集合;/n将所述样本集合中所有样本的第二加密中间参数统计后返回至第二数据拥有方,以使得所述第二数据拥有方解密得到第二中间参数统计值;/n对于每个训练样本,根据所述第一样本标签获得第一中间参数,并统计所述样本集合中所有样本的第一中间参数统计值;/n基于中间参数,调整所述树模型的模型参数,其中,所述中间参数是根据所述第一中间参数统计值、以及第二中间参数统计值得到。/n

【技术特征摘要】
1.一种基于多方安全计算的树模型的训练方法,其特征在于,所述树模型由参与多方安全计算的多方共同训练,所述多方包括第一数据拥有方和至少一个第二数据拥有方,其中,所述第一数据拥有方具有各训练样本对应的第一样本标签,所述第二数据拥有方具有所述训练样本对应的第二样本标签;
所述方法包括:
所述第一数据拥有方接收所述第二数据拥有方发送的每个训练样本分别对应的第二加密中间参数,其中,所述第二加密中间参数是由第二数据拥有方根据所述第二样本标签获得第二中间参数后再进行同态加密得到;
基于本轮迭代对应的分裂特征,将各训练样本划分得到样本集合;
将所述样本集合中所有样本的第二加密中间参数统计后返回至第二数据拥有方,以使得所述第二数据拥有方解密得到第二中间参数统计值;
对于每个训练样本,根据所述第一样本标签获得第一中间参数,并统计所述样本集合中所有样本的第一中间参数统计值;
基于中间参数,调整所述树模型的模型参数,其中,所述中间参数是根据所述第一中间参数统计值、以及第二中间参数统计值得到。


2.根据权利要求1所述的方法,其特征在于,所述基于中间参数,调整所述树模型的模型参数,其中,所述中间参数是根据所述第一中间参数统计值、以及第二中间参数统计值得到,包括:
对所述第一中间参数统计值、以及第二中间参数统计值,以各自的权重系数进行加权平均,得到所述中间参数。


3.根据权利要求1所述的方法,其特征在于,所述基于中间参数,调整所述树模型的模型参数,其中,所述中间参数是根据所述第一中间参数统计值、以及第二中间参数统计值得到,包括:
当所述第二数据拥有方的数量为多个时,分别接收每一个第二数据拥有方发送的解密得到的第二中间参数统计值;
基于第一中间参数统计值以及多个第二中间参数统计值,得到中间参数。


4.根据权利要求1所述的方法,其特征在于,所述将各训练样本划分得到的样本集合包括第一分支集合和第二分支集合;所述统计所述样本集合中所有样本的第一中间参数统计值,包括:
统计所述第一分支集合中所有训练样本的第一中间参数,得到所述第一分支集合对应的第一中间参数统计值;
基于所有训练样本的第一中间参数统计值、以及所述第一分支集合对应的第一中间参数统计值,得到所述第二分支集合对应的第一中间参数统计值。


5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在调整所述树模型的模型参数直至所述树模型的树结构确定后,根据所述中间参数计算所述树模型的叶子节点的节点权重。


6.根据权利要求1~5任一所述的方法,其特征在于,
所述分裂特征,包括:交易样本的交易特征;
所述第一样本标签或第二样本标签,用于表示所述交易样本是否存在风险。


7.一种基于树模型的业务预测方法,其特征在于,所述方法包括:
接收业务对象的对象特征;
将所述对象特征输入预先训练的树模型,其中,所述树模型按照权利要求1至6任一所述的方法训练得到,得到所述树模型输出的业务预测结果。


8.根据权利要求7所述的方法,其特...

【专利技术属性】
技术研发人员:朱敏杰张天翼陈帅傅颖
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1