【技术实现步骤摘要】
一种风控场景下的纵向联邦特征衍生方法
[0001]本专利技术涉及数据特征衍生
,尤其涉及一种风控场景下的纵向联邦特征衍生方法。
技术介绍
[0002]在实际业务中,多数变量没有实际含义,不适合直接建模,如用户地址(多种属性值的分类变量)、用户日消费金额(弱数值变量),而此类变量在做一定的变换或者组合后,往往具有较强的信息价值,对数据敏感性和机器学习实战经验能起到较大的帮助作用。所以实际场景需要对基础特征做一些衍生类的工作,也就是业内常说的如何生成万维数据。
[0003]特征衍生常用于金融风控场景。目前,发起方的数据与参与方的数据进行特征衍生时,都是根据衍生特征规则(常见的衍生特征规则为加减乘除)采用明文方式进行,会将自己的数据泄露给对方,无法保护各自的数据隐私。
技术实现思路
[0004]本专利技术为了解决上述技术问题,提供了一种风控场景下的纵向联邦特征衍生方法,其可以在发起方、参与方的数据不出库的情况下完成特征衍生,保护了双方的数据隐私,避免数据泄露。
[0005]为了解决上述问题,本 ...
【技术保护点】
【技术特征摘要】
1.一种风控场景下的纵向联邦特征衍生方法,其特征在于,包括以下步骤:S1:发起方客户端初始化分箱个数以及半同态加密的公钥、私钥,将分箱个数、半同态加密的公钥发送给参与方客户端;S2:发起方客户端从自身数据库中采集K个用户对应的特征数据A,发起方客户端采用半同态加密算法对每个用户对应的特征数据A加密得到每个用户对应的加密特征enc(A)并发送给参与方客户端,参与方客户端根据发起方客户端发送的加密特征enc(A)以及自身数据库中存储的相同的K个用户对应的特征数据B计算出与每个用户对应的半同态加密状态的衍生特征enc(C);S3:参与方客户端采用半同态加密算法计算出K个用户对应的衍生特征enc(C)中的明文最大值、明文最小值,并根据分箱个数计算出衍生特征enc(C)对应的所有分箱的边界;S4:参与方客户端在发起方客户端的配合下对每个衍生特征enc(C)进行分箱并记录对应的分箱信息;S5:发起方客户端采用半同态加密算法将每个用户对应的标签Y加密得到对应的加密标签enc(Y)并发送给参与方客户端;S6:参与方客户端根据每个用户对应的加密标签enc(Y)与该用户对应的衍生特征enc(C)的分箱信息计算出每个分箱中的好样本数量的半同态加密密文、总样本数量的半同态加密密文,并将计算结果发送给发起方客户端;S7:发起方客户端将每个分箱中的好样本数量的半同态加密密文、总样本数量的半同态加密密文解密后计算出信息值IV,根据信息值IV判断衍生特征enc(C)是否为有效衍生特征,并将判断结果发送给参与方客户端。2.根据权利要求1所述的一种风控场景下的纵向联邦特征衍生方法,其特征在于,所述步骤S2中计算与某个用户对应的半同态加密状态的衍生特征enc(C)的方法包括以下步骤:参与方客户端采用半同态加密算法加密该用户对应的特征数据B得到加密特征enc(B),参与方客户端对该用户对应的加密特征enc(A)、加密特征enc(B)进行加法或减法或乘法运算,得到衍生特征enc(C)。3.根据权利要求1所述的一种风控场景下的纵向联邦特征衍生方法,其特征在于,所述步骤S2中计算与某个用户对应的半同态加密状态的衍生特征enc(C)的方法包括以下步骤:参与方客户端将该用户对应的特征数据B取倒数得到数据1/B,采用半同态加密算法加密1/B得到enc(1/B),然后计算衍生特征enc(C)= enc(A)* enc(1/B)。4.根据权利要求1所述的一种风控场景下的纵向联邦特征衍生方法,其特征在于,所述步骤S2中计算与某个用户对应的半同态加密状态的衍生特征enc(C)的方法包括以下步骤:参与方客户端根据该用户对应的加密特征enc(A)计算出enc(1/A),采用半同态加密算法加密该用户对应的特征数据B得到加密特征enc(B),计算衍生特征enc(C)= enc(1/A)* enc(B);参与方客户端根据该用户对应的加密特征enc(A)计算出enc(1/A)的方法如下:M1:参与方客户端采用半同态加密算法计算出所有加密特征enc(A)中的明文最大值D,找出数值2
n
,使得0<D/2
n
<2满足,n为整数;M2:将该用户对应的加密特征enc(A)除以2
n
得到enc(f)= enc(A) /2
n
;M3:参与方客户端计算enc(e)= enc(1);
M4:参与方客户端计算enc(d)= enc(2)
‑ꢀ
enc(f);M5:参与方客户端计算enc(e1)= enc(d)* enc(e);M6:参与方客户端计算enc(f1)= enc(d)* enc(f);M7:参与方客户端计算enc(f)= enc(f1),enc(e)= enc(e1);M8:重复执行M4
‑
M7步骤m次,得到的enc(e)就是enc(1/f)的值,即enc(1/f)= enc(e);M9:参与方客户端计算出enc(1/A)= enc(1/f)* 2
n
。5.根据权利要求1所述的一种风控场景下的纵向联邦特征衍生方法,其特征在于,所述步骤S3中计算出衍生特征enc(C)对应的所有分箱的边界的方法如下:计算p=(a
‑
b)/q,其中,a为所有衍生特征enc(C)中的明文最大值,b为所有衍生特征enc(C)中的明文最小值,q为分箱个数;q个分箱依次编号为1,2
……
q,编号为1的分箱的明文边界为[b,b+p),编号为2的分箱的明文边界为[b+p,b+2p),
…
,编号为q
‑
1的分箱的明文边界为[b+(q
‑
2)p,b+(q
‑
1)p),编号为q的分箱的明文边界为[b+(q
‑
1)p,a];对所有分箱的明文边界采用半同态加密算法加密,得到衍生特征enc(C)对应的所有分箱的边界:编号为1的分箱的边界为[enc(b),enc(b+p)),编号为2的分箱的边界为[enc(b+p),enc(b+2p)),
…
,编号为q
‑
1的分箱的边界为[enc(b+(q
‑
2)p),enc(b+(q
‑
1)p)),编号为q的分箱的边界为[enc(b+(q
‑
1)p),enc(a)]。6.根据权利要求1所述的一种风控场景下的纵向联邦特征衍生方法,其特征在于,所述步骤S4中参与方客户端在发起方客户端的配合下对某个衍生特征enc(C) 进行分箱并记录对应的分箱信息包括以下步骤:参与方客户端在发起方客户端的配合下比较该衍生特征enc(C)与每个分箱边界enc(H)的大小,从而确定该衍生特征enc(C)属于哪个分箱,如果该衍生特征enc(C)属于第r个分箱,则第r个分箱中该...
【专利技术属性】
技术研发人员:郭梁,王超,宋鎏屹,毛仁歆,刘洋,
申请(专利权)人:蓝象智联杭州科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。